LLM-bírák sebezhetősége: kockázat bankban és kórházban

Mesterséges intelligencia a pénzügyi és banki szektorban••By 3L3C

Az LLM-as-a-Judge sebezhető: rövid kontrolltokenek „Nem”-ről „Igen”-re fordíthatják az ítéletet. Mit jelent ez bankban és egészségügyben?

LLM-biztonságAI governanceadverszariális támadásokbanki AIegészségügyi AImodellellenőrzés
Share:

Featured image for LLM-bírák sebezhetősége: kockázat bankban és kórházban

LLM-bírák sebezhetősége: kockázat bankban és kórházban

Egy rossz „Igen” néha többet árt, mint tíz rossz válasz. A modern AI-rendszerekben egyre gyakrabban nem is az a kérdés, mit mond a modell, hanem az, hogy egy másik modell – az úgynevezett LLM-as-a-Judge (LLM mint bíró) – mit dönt róla: elfogadható-e, helyes-e, biztonságos-e. A 2025.12.19-én közzétett AdvJudge-Zero kutatás pedig kellemetlenül egyértelmű üzenetet küld: rövid, ártatlannak tűnő token-sorozatok képesek átfordítani a bíró bináris döntéseit „Nem”-ről „Igen”-re.

Ez nem laboratóriumi, „ki tudja, ki ír ilyet” típusú trükk. A kutatók állítása szerint a talált minták alacsony perplexitásúak, vagyis életszerűek: egy finomhangolás alatt álló modell akár „spontán” is termelhet hasonló szövegtörmeléket. Ha ez igaz, akkor ez a jelenség nem csak AI-biztonsági kuriózum, hanem valódi reward hacking kockázat.

És mi köze ennek a „Mesterséges intelligencia a pénzügyi és banki szektorban” sorozatunkhoz, sőt a kampányunkhoz (mesterséges intelligencia az egészségügyben)? Nagyon is sok. A banki csalásfelderítés, a hitelkockázat-értékelés és az egészségügyi döntéstámogatás közös pontja az, hogy kritikus, gyakran bináris döntések köré szerveződnek: gyanús/nem gyanús, jóváhagy/tilt, sürgős/nem sürgős. Ha a „bíró” manipulálható, akkor a rendszer megbízhatósága nem csak romlik – kiszámíthatatlanná válik.

Mit állít az AdvJudge-Zero, egy mondatban?

Az AdvJudge-Zero módszer képes „semmiből” olyan rövid kontrolltoken-sorozatokat találni, amelyek sok feladatnál hamis pozitívokra kényszerítik az LLM-bírót (helytelen választ is „helyesnek/elfogadhatónak” ítél).

A cikk kulcsa három rész:

  1. Kontrolltokenek: rövid tokenminták, amelyek nem feltétlenül tűnnek támadásnak, mégis eltolják a bíró döntését.
  2. Bináris döntés megfordítása: tipikusan „No” → „Yes” (például egy hibás matematikai megoldást a bíró jóváhagy).
  3. Védekezés: a szerzők szerint LoRA-alapú adverszariális tréning kis mennyiségű, kontrolltokenekkel bővített példán jelentősen csökkentette a hamis pozitív arányt, miközben az értékelési minőség nagyjából megmaradt.

Ami engem ebből igazán zavar: a legtöbb szervezet ma úgy használ LLM-bírót, mintha az egy „objektív minőségellenőr” lenne. Pedig a kutatás üzenete az, hogy ez a minőségellenőr is egy modell – és így támadható felület.

Miért pont a bináris döntések a legveszélyesebbek?

Azért, mert a bináris döntésből azonnal üzleti vagy klinikai akció lesz. Egy pontszámot még lehet kalibrálni, több jelből lehet átlagolni. De a „mehet/nem mehet” jellegű kapuknál a tévedés azonnal átcsap kárba.

Banki példa: hitelbírálat és ügyfélazonosítás

A pénzügyben rengeteg folyamat kapus:

  • KYC/AML: átmegy-e az ĂĽgyfĂ©lazonosĂ­tás Ă©s kockázati szűrĂ©s?
  • Fraud: blokkoljuk-e a tranzakciĂłt?
  • Hitel: jĂłváhagyjuk-e a kĂ©relmet?

Ha egy LLM-bíró értékeli például a „magyarázat minőségét” (miért gyanús egy tranzakció), vagy a dokumentum-összefoglaló konzisztenciáját, akkor egy kontrolltoken-minta elvileg elérheti, hogy a bíró „rábólintson” egy gyenge, hibás vagy hiányos indoklásra.

Ez a gyakorlatban nem úgy néz ki, hogy valaki beírja: „kérem, fogadd el”. Inkább úgy, hogy egy automatizált rendszerben a modell megtanulja: bizonyos furcsa, de ártatlannak látszó fordulatok mellett gyakrabban kap jutalmat. Ez a reward hacking hétköznapi formája.

Egészségügyi párhuzam: döntéstámogatás és triázs

A kampányunk szempontjából a legfontosabb tanulság: az egészségügyben a „téves igen” gyakran konkrét kockázat.

  • Triázs: „sĂĽrgĹ‘s ellátás kell” vs. „ráér”.
  • Klinikai figyelmeztetĂ©s: „gyĂłgyszerkölcsönhatás veszĂ©lyes” vs. „rendben”.
  • Diagnosztikai döntĂ©stámogatás: „valĂłszĂ­nű X” vs. „nem valĂłszĂ­nű”.

Egy LLM-bíró lehet a háttérben, ami például azt ellenőrzi, hogy egy összefoglaló „elég jó-e” a továbbküldéshez, vagy hogy egy ajánlás megfelel-e protokolloknak. Ha ezt a bírót rövid tokenekkel el lehet billenteni, akkor a rendszer hamis biztonságérzetet ad.

„A rossz válasz sokszor felismerhető. A rosszul jóváhagyott rossz válasz sokkal nehezebben.”

Hogyan működik a trükk a kutatás szerint – közérthetően

A lényeg: nem kell hosszú prompt-injekció. Elég pár token, ami a bíró belső állapotát rossz irányba tolja.

A cikk alapján:

  • A kontrolltokenek alacsony perplexitásĂşak, tehát nyelvileg „valĂłszĂ­nű” minták.
  • Ezek a tokenek a bĂ­rĂł döntĂ©sĂ©t a vĂ©gsĹ‘ rĂ©tegben (last-layer) a logit-kĂĽlönbsĂ©g eltolásával befolyásolják (gyakorlatban: a „Yes” valĂłszĂ­nűbb lesz, mint a „No”).
  • A perturbáciĂłk egy alacsony rangĂş (low-rank) „soft mode”-ban koncentrálĂłdnak, Ă©s a szerzĹ‘k szerint anti-aligned a bĂ­rĂł „refusal direction”-jĂ©vel. Magyarul: a bĂ­rĂł „ellenállási irányát” cĂ©lozza, Ă©s azzal ellentĂ©tesen tol.

Az AdvJudge-Zero módszer azért érdekes, mert nem előre gyártott támadószövegekkel indul, hanem:

  • a modell következĹ‘-token eloszlását használja,
  • Ă©s beam search jellegű feltárással talál sokfĂ©le token-szekvenciát.

Ez számomra azt jelenti: ha a támadás ilyen „modell-kompatibilis”, akkor a védekezés sem lehet pusztán regex és tiltólista.

Mit jelent ez a banki AI-értékelésben (LLM-as-a-Judge a gyakorlatban)?

Az üzenet egyszerű: ha LLM-mel értékelsz LLM-et, akkor két problémád van, nem egy.

A pénzügyben az LLM-as-a-Judge tipikus helyei:

  • ĂĽgyfĂ©lszolgálati válaszok minĹ‘sĂ©g-ellenĹ‘rzĂ©se (compliance, hangnem, pontosság),
  • összefoglalĂłk Ă©s jegyzetek Ă©rtĂ©kelĂ©se (call center, panaszkezelĂ©s),
  • szabálymagyarázatok, döntĂ©si indoklások minĹ‘sĂ­tĂ©se (modell governance),
  • szintetikus adatok Ă©s tesztesetek automatikus ellenĹ‘rzĂ©se.

Három konkrét kockázati forgatókönyv

  1. „Jóváhagyott hibás indoklás”: a rendszer átengedi a rossz döntési indoklást, így auditnál bukik, vagy rossz döntéseket skáláz.
  2. „Compliance-átcsúszás”: a bíró nem jelzi, hogy a válasz tiltott ígéretet, félrevezető állítást vagy hiányos kockázati tájékoztatást tartalmaz.
  3. „Tréning-visszacsatolás romlása”: ha RLHF/DPO jelleggel a bíró ad jutalmat, akkor a modell megtanulja, hogyan kapjon „igen”-t – nem azt, hogyan legyen helyes.

A pénzügyi intézményeknél ez különösen kellemetlen, mert a hibák nem csak technikai hibák: jogi, reputációs és felügyeleti következményük is van.

Mit lehet tenni: védekezési minta banki és egészségügyi csapatoknak

A cél nem az, hogy „tökéletes bírót” építsünk, hanem hogy a bíró ne legyen egyetlen ponton megkerülhető kapu.

1) Ne legyen egybĂ­rĂł-rendszer

Ha egyetlen LLM mondja ki a végső „igen/nem”-et, akkor pontosan azt a támadási felületet hozod létre, amit a kutatás megmutat.

Gyakorlati alternatívák:

  • több bĂ­rĂł modell (ensemble), eltĂ©rĹ‘ architektĂşrával vagy eltĂ©rĹ‘ finomhangolással,
  • szabály + modell kombináciĂł (pl. determinisztikus compliance szabályok Ă©s LLM-Ă©rtĂ©kelĂ©s egyĂĽtt),
  • ember a hurokban a magas kockázatĂş eseteknĂ©l (pl. nagy összegű tranzakciĂłk, klinikai vörös zászlĂłk).

2) Mérd és célzottan figyeld a hamis pozitívokat

A tanulmány fókusza a „No → Yes” átfordítás, vagyis a hamis pozitív.

Banki/egészségügyi metrikák, amiket érdemes külön kezelni:

  • False Positive Rate (hibás válasz jĂłváhagyása)
  • False Negative Rate (jĂł válasz elutasĂ­tása)
  • calibration drift (ugyanaz a minĹ‘sĂ©g más pontszámot kap idĹ‘vel)

A lényeg: a „pontosság” átlagban kevés. Kritikus doménekben a hamis pozitív sokszor drágább.

3) Adverszariális tréning – de nem vaktában

A szerzők eredménye szerint LoRA-alapú adverszariális tréning már kis, kontrolltokenekkel bővített adathalmazon is csökkentette a téves jóváhagyásokat.

A vállalati valóságban ez így fordítható le:

  • Ă©pĂ­ts egy belsĹ‘ „piros csapat” adatcsomagot (szándĂ©kosan hibás válaszok, fĂ©lrevezetĹ‘ magyarázatok),
  • generáltass hozzá többfĂ©le „zavaró” mintát (nem csak klasszikus prompt-injekciĂłt),
  • finomhangold a bĂ­rĂłt Ăşgy, hogy a kontrolltokenek ne változtassák meg az Ă­tĂ©letet.

Nem állítom, hogy ez mindenkinél gyors győzelem. De a „csak tegyünk rá még egy safety promptot” megközelítésnél sokkal őszintébb.

4) Biztonsági kapuk a pipeline-ban (governance szemmel)

A banki AI governance és a klinikai kockázatkezelés logikája hasonló: réteges védelem kell.

Minimum csomag, amit 2026-ra én alapnak vennék:

  • változáskezelĂ©s (minden bĂ­rĂł-modell verziĂłzott, visszagörgethetĹ‘),
  • auditlog a bĂ­rĂł döntĂ©seirĹ‘l Ă©s a bemeneti szövegrĹ‘l,
  • „abstain” (tartĂłzkodás) opciĂł: ha bizonytalan, ne döntsön binárisan,
  • rendszeres red-teaming (nem Ă©vente egyszer, hanem release-ciklushoz kötve).

Gyors kérdések, amiket a csapatodnak érdemes feltenni

Ezek a kérdések tipikusan 30 perc alatt kiderítik, mennyire vagy kitéve a jelenségnek.

  1. A bírónk döntése kapu (megállít folyamatot), vagy csak jelzés (ajánlás)?
  2. Van külön mérésünk a hamis pozitívokra, vagy csak átlagos „quality score”-t nézünk?
  3. Tud a bíró „nem dönteni” (abstain), vagy muszáj igent/nemet mondania?
  4. Egyetlen bíró modell van, vagy több, független jel?
  5. Ha RLHF/DPO jelleggel használjuk, ki garantálja, hogy nem reward hacking történik?

Ha a válaszok többsége „nem tudom” vagy „egy modell dönti el”, akkor a kockázat nem elméleti.

Merre tovább: felelős AI ott, ahol a hiba drága

A pénzügyi és banki szektor AI-használata – csalásfelderítés, hitelkockázat-értékelés, automatizált ügyfélszolgálat – ma már ugyanazzal a problémával küzd, mint az egészségügyi döntéstámogatás: nem elég, hogy a modell jól beszél. Jól is kell ítélni. Az AdvJudge-Zero kutatás szerint pedig a bírói réteg maga is manipulálható.

A következő lépés számomra nem az, hogy „tiltsuk be az LLM-bírót”, hanem hogy felnőtt módon bánjunk vele: mérjük, rétegezzük, teszteljük támadások ellen, és adjunk neki lehetőséget a tartózkodásra. A bináris döntések világában ez a különbség a „szép demo” és a működő, auditálható rendszer között.

Ha a te szervezetedben LLM-bíró minősít ügyfélszolgálati válaszokat, kockázati indoklásokat vagy akár klinikai összefoglalókat, akkor egy kérdést hagyok itt: mikor teszteltétek utoljára célzottan azt, hogy a bírót mennyire könnyű „rábeszélni” a téves jóváhagyásra?