Az LLM-as-a-Judge sebezhetĹ‘: rövid kontrolltokenek „Nem”-rĹ‘l „Igen”-re fordĂthatják az ĂtĂ©letet. Mit jelent ez bankban Ă©s egĂ©szsĂ©gĂĽgyben?

LLM-bĂrák sebezhetĹ‘sĂ©ge: kockázat bankban Ă©s kĂłrházban
Egy rossz „Igen” nĂ©ha többet árt, mint tĂz rossz válasz. A modern AI-rendszerekben egyre gyakrabban nem is az a kĂ©rdĂ©s, mit mond a modell, hanem az, hogy egy másik modell – az Ăşgynevezett LLM-as-a-Judge (LLM mint bĂrĂł) – mit dönt rĂłla: elfogadhatĂł-e, helyes-e, biztonságos-e. A 2025.12.19-Ă©n közzĂ©tett AdvJudge-Zero kutatás pedig kellemetlenĂĽl egyĂ©rtelmű ĂĽzenetet kĂĽld: rövid, ártatlannak tűnĹ‘ token-sorozatok kĂ©pesek átfordĂtani a bĂrĂł bináris döntĂ©seit „Nem”-rĹ‘l „Igen”-re.
Ez nem laboratĂłriumi, „ki tudja, ki Ăr ilyet” tĂpusĂş trĂĽkk. A kutatĂłk állĂtása szerint a talált minták alacsony perplexitásĂşak, vagyis Ă©letszerűek: egy finomhangolás alatt állĂł modell akár „spontán” is termelhet hasonlĂł szövegtörmelĂ©ket. Ha ez igaz, akkor ez a jelensĂ©g nem csak AI-biztonsági kuriĂłzum, hanem valĂłdi reward hacking kockázat.
És mi köze ennek a „MestersĂ©ges intelligencia a pĂ©nzĂĽgyi Ă©s banki szektorban” sorozatunkhoz, sĹ‘t a kampányunkhoz (mestersĂ©ges intelligencia az egĂ©szsĂ©gĂĽgyben)? Nagyon is sok. A banki csalásfelderĂtĂ©s, a hitelkockázat-Ă©rtĂ©kelĂ©s Ă©s az egĂ©szsĂ©gĂĽgyi döntĂ©stámogatás közös pontja az, hogy kritikus, gyakran bináris döntĂ©sek körĂ© szervezĹ‘dnek: gyanĂşs/nem gyanĂşs, jĂłváhagy/tilt, sĂĽrgĹ‘s/nem sĂĽrgĹ‘s. Ha a „bĂró” manipulálhatĂł, akkor a rendszer megbĂzhatĂłsága nem csak romlik – kiszámĂthatatlanná válik.
Mit állĂt az AdvJudge-Zero, egy mondatban?
Az AdvJudge-Zero mĂłdszer kĂ©pes „semmibĹ‘l” olyan rövid kontrolltoken-sorozatokat találni, amelyek sok feladatnál hamis pozitĂvokra kĂ©nyszerĂtik az LLM-bĂrĂłt (helytelen választ is „helyesnek/elfogadhatĂłnak” ĂtĂ©l).
A cikk kulcsa három rész:
- Kontrolltokenek: rövid tokenminták, amelyek nem feltĂ©tlenĂĽl tűnnek támadásnak, mĂ©gis eltolják a bĂrĂł döntĂ©sĂ©t.
- Bináris döntĂ©s megfordĂtása: tipikusan „No” → „Yes” (pĂ©ldául egy hibás matematikai megoldást a bĂrĂł jĂłváhagy).
- VĂ©dekezĂ©s: a szerzĹ‘k szerint LoRA-alapĂş adverszariális trĂ©ning kis mennyisĂ©gű, kontrolltokenekkel bĹ‘vĂtett pĂ©ldán jelentĹ‘sen csökkentette a hamis pozitĂv arányt, miközben az Ă©rtĂ©kelĂ©si minĹ‘sĂ©g nagyjábĂłl megmaradt.
Ami engem ebbĹ‘l igazán zavar: a legtöbb szervezet ma Ăşgy használ LLM-bĂrĂłt, mintha az egy „objektĂv minĹ‘sĂ©gellenĹ‘r” lenne. Pedig a kutatás ĂĽzenete az, hogy ez a minĹ‘sĂ©gellenĹ‘r is egy modell – Ă©s Ăgy támadhatĂł felĂĽlet.
Miért pont a bináris döntések a legveszélyesebbek?
Azért, mert a bináris döntésből azonnal üzleti vagy klinikai akció lesz. Egy pontszámot még lehet kalibrálni, több jelből lehet átlagolni. De a „mehet/nem mehet” jellegű kapuknál a tévedés azonnal átcsap kárba.
Banki pĂ©lda: hitelbĂrálat Ă©s ĂĽgyfĂ©lazonosĂtás
A pénzügyben rengeteg folyamat kapus:
- KYC/AML: átmegy-e az ĂĽgyfĂ©lazonosĂtás Ă©s kockázati szűrĂ©s?
- Fraud: blokkoljuk-e a tranzakciĂłt?
- Hitel: jóváhagyjuk-e a kérelmet?
Ha egy LLM-bĂrĂł Ă©rtĂ©keli pĂ©ldául a „magyarázat minĹ‘sĂ©gĂ©t” (miĂ©rt gyanĂşs egy tranzakciĂł), vagy a dokumentum-összefoglalĂł konzisztenciáját, akkor egy kontrolltoken-minta elvileg elĂ©rheti, hogy a bĂrĂł „rábĂłlintson” egy gyenge, hibás vagy hiányos indoklásra.
Ez a gyakorlatban nem Ăşgy nĂ©z ki, hogy valaki beĂrja: „kĂ©rem, fogadd el”. Inkább Ăşgy, hogy egy automatizált rendszerben a modell megtanulja: bizonyos furcsa, de ártatlannak látszĂł fordulatok mellett gyakrabban kap jutalmat. Ez a reward hacking hĂ©tköznapi formája.
Egészségügyi párhuzam: döntéstámogatás és triázs
A kampányunk szempontjából a legfontosabb tanulság: az egészségügyben a „téves igen” gyakran konkrét kockázat.
- Triázs: „sürgős ellátás kell” vs. „ráér”.
- Klinikai figyelmeztetés: „gyógyszerkölcsönhatás veszélyes” vs. „rendben”.
- Diagnosztikai döntĂ©stámogatás: „valĂłszĂnű X” vs. „nem valĂłszĂnű”.
Egy LLM-bĂrĂł lehet a háttĂ©rben, ami pĂ©ldául azt ellenĹ‘rzi, hogy egy összefoglalĂł „elĂ©g jĂł-e” a továbbkĂĽldĂ©shez, vagy hogy egy ajánlás megfelel-e protokolloknak. Ha ezt a bĂrĂłt rövid tokenekkel el lehet billenteni, akkor a rendszer hamis biztonságĂ©rzetet ad.
„A rossz válasz sokszor felismerhető. A rosszul jóváhagyott rossz válasz sokkal nehezebben.”
Hogyan működik a trükk a kutatás szerint – közérthetően
A lĂ©nyeg: nem kell hosszĂş prompt-injekciĂł. ElĂ©g pár token, ami a bĂrĂł belsĹ‘ állapotát rossz irányba tolja.
A cikk alapján:
- A kontrolltokenek alacsony perplexitásĂşak, tehát nyelvileg „valĂłszĂnű” minták.
- Ezek a tokenek a bĂrĂł döntĂ©sĂ©t a vĂ©gsĹ‘ rĂ©tegben (last-layer) a logit-kĂĽlönbsĂ©g eltolásával befolyásolják (gyakorlatban: a „Yes” valĂłszĂnűbb lesz, mint a „No”).
- A perturbáciĂłk egy alacsony rangĂş (low-rank) „soft mode”-ban koncentrálĂłdnak, Ă©s a szerzĹ‘k szerint anti-aligned a bĂrĂł „refusal direction”-jĂ©vel. Magyarul: a bĂrĂł „ellenállási irányát” cĂ©lozza, Ă©s azzal ellentĂ©tesen tol.
Az AdvJudge-Zero módszer azért érdekes, mert nem előre gyártott támadószövegekkel indul, hanem:
- a modell következő-token eloszlását használja,
- és beam search jellegű feltárással talál sokféle token-szekvenciát.
Ez számomra azt jelenti: ha a támadás ilyen „modell-kompatibilis”, akkor a védekezés sem lehet pusztán regex és tiltólista.
Mit jelent ez a banki AI-értékelésben (LLM-as-a-Judge a gyakorlatban)?
Az üzenet egyszerű: ha LLM-mel értékelsz LLM-et, akkor két problémád van, nem egy.
A pénzügyben az LLM-as-a-Judge tipikus helyei:
- ügyfélszolgálati válaszok minőség-ellenőrzése (compliance, hangnem, pontosság),
- összefoglalók és jegyzetek értékelése (call center, panaszkezelés),
- szabálymagyarázatok, döntĂ©si indoklások minĹ‘sĂtĂ©se (modell governance),
- szintetikus adatok és tesztesetek automatikus ellenőrzése.
Három konkrét kockázati forgatókönyv
- „JĂłváhagyott hibás indoklás”: a rendszer átengedi a rossz döntĂ©si indoklást, Ăgy auditnál bukik, vagy rossz döntĂ©seket skáláz.
- „Compliance-átcsĂşszás”: a bĂrĂł nem jelzi, hogy a válasz tiltott ĂgĂ©retet, fĂ©lrevezetĹ‘ állĂtást vagy hiányos kockázati tájĂ©koztatást tartalmaz.
- „TrĂ©ning-visszacsatolás romlása”: ha RLHF/DPO jelleggel a bĂrĂł ad jutalmat, akkor a modell megtanulja, hogyan kapjon „igen”-t – nem azt, hogyan legyen helyes.
A pénzügyi intézményeknél ez különösen kellemetlen, mert a hibák nem csak technikai hibák: jogi, reputációs és felügyeleti következményük is van.
Mit lehet tenni: védekezési minta banki és egészségügyi csapatoknak
A cĂ©l nem az, hogy „tökĂ©letes bĂrĂłt” Ă©pĂtsĂĽnk, hanem hogy a bĂrĂł ne legyen egyetlen ponton megkerĂĽlhetĹ‘ kapu.
1) Ne legyen egybĂrĂł-rendszer
Ha egyetlen LLM mondja ki a végső „igen/nem”-et, akkor pontosan azt a támadási felületet hozod létre, amit a kutatás megmutat.
Gyakorlati alternatĂvák:
- több bĂrĂł modell (ensemble), eltĂ©rĹ‘ architektĂşrával vagy eltĂ©rĹ‘ finomhangolással,
- szabály + modell kombináció (pl. determinisztikus compliance szabályok és LLM-értékelés együtt),
- ember a hurokban a magas kockázatú eseteknél (pl. nagy összegű tranzakciók, klinikai vörös zászlók).
2) MĂ©rd Ă©s cĂ©lzottan figyeld a hamis pozitĂvokat
A tanulmány fĂłkusza a „No → Yes” átfordĂtás, vagyis a hamis pozitĂv.
Banki/egészségügyi metrikák, amiket érdemes külön kezelni:
- False Positive Rate (hibás válasz jóváhagyása)
- False Negative Rate (jĂł válasz elutasĂtása)
- calibration drift (ugyanaz a minőség más pontszámot kap idővel)
A lĂ©nyeg: a „pontosság” átlagban kevĂ©s. Kritikus domĂ©nekben a hamis pozitĂv sokszor drágább.
3) Adverszariális tréning – de nem vaktában
A szerzĹ‘k eredmĂ©nye szerint LoRA-alapĂş adverszariális trĂ©ning már kis, kontrolltokenekkel bĹ‘vĂtett adathalmazon is csökkentette a tĂ©ves jĂłváhagyásokat.
A vállalati valĂłságban ez Ăgy fordĂthatĂł le:
- Ă©pĂts egy belsĹ‘ „piros csapat” adatcsomagot (szándĂ©kosan hibás válaszok, fĂ©lrevezetĹ‘ magyarázatok),
- generáltass hozzá többféle „zavaró” mintát (nem csak klasszikus prompt-injekciót),
- finomhangold a bĂrĂłt Ăşgy, hogy a kontrolltokenek ne változtassák meg az ĂtĂ©letet.
Nem állĂtom, hogy ez mindenkinĂ©l gyors gyĹ‘zelem. De a „csak tegyĂĽnk rá mĂ©g egy safety promptot” megközelĂtĂ©snĂ©l sokkal Ĺ‘szintĂ©bb.
4) Biztonsági kapuk a pipeline-ban (governance szemmel)
A banki AI governance és a klinikai kockázatkezelés logikája hasonló: réteges védelem kell.
Minimum csomag, amit 2026-ra én alapnak vennék:
- változáskezelĂ©s (minden bĂrĂł-modell verziĂłzott, visszagörgethetĹ‘),
- auditlog a bĂrĂł döntĂ©seirĹ‘l Ă©s a bemeneti szövegrĹ‘l,
- „abstain” (tartózkodás) opció: ha bizonytalan, ne döntsön binárisan,
- rendszeres red-teaming (nem évente egyszer, hanem release-ciklushoz kötve).
Gyors kérdések, amiket a csapatodnak érdemes feltenni
Ezek a kĂ©rdĂ©sek tipikusan 30 perc alatt kiderĂtik, mennyire vagy kitĂ©ve a jelensĂ©gnek.
- A bĂrĂłnk döntĂ©se kapu (megállĂt folyamatot), vagy csak jelzĂ©s (ajánlás)?
- Van kĂĽlön mĂ©rĂ©sĂĽnk a hamis pozitĂvokra, vagy csak átlagos „quality score”-t nĂ©zĂĽnk?
- Tud a bĂrĂł „nem dönteni” (abstain), vagy muszáj igent/nemet mondania?
- Egyetlen bĂrĂł modell van, vagy több, fĂĽggetlen jel?
- Ha RLHF/DPO jelleggel használjuk, ki garantálja, hogy nem reward hacking történik?
Ha a válaszok többsége „nem tudom” vagy „egy modell dönti el”, akkor a kockázat nem elméleti.
Merre tovább: felelős AI ott, ahol a hiba drága
A pĂ©nzĂĽgyi Ă©s banki szektor AI-használata – csalásfelderĂtĂ©s, hitelkockázat-Ă©rtĂ©kelĂ©s, automatizált ĂĽgyfĂ©lszolgálat – ma már ugyanazzal a problĂ©mával kĂĽzd, mint az egĂ©szsĂ©gĂĽgyi döntĂ©stámogatás: nem elĂ©g, hogy a modell jĂłl beszĂ©l. JĂłl is kell ĂtĂ©lni. Az AdvJudge-Zero kutatás szerint pedig a bĂrĂłi rĂ©teg maga is manipulálhatĂł.
A következĹ‘ lĂ©pĂ©s számomra nem az, hogy „tiltsuk be az LLM-bĂrĂłt”, hanem hogy felnĹ‘tt mĂłdon bánjunk vele: mĂ©rjĂĽk, rĂ©tegezzĂĽk, teszteljĂĽk támadások ellen, Ă©s adjunk neki lehetĹ‘sĂ©get a tartĂłzkodásra. A bináris döntĂ©sek világában ez a kĂĽlönbsĂ©g a „szĂ©p demo” Ă©s a működĹ‘, auditálhatĂł rendszer között.
Ha a te szervezetedben LLM-bĂrĂł minĹ‘sĂt ĂĽgyfĂ©lszolgálati válaszokat, kockázati indoklásokat vagy akár klinikai összefoglalĂłkat, akkor egy kĂ©rdĂ©st hagyok itt: mikor teszteltĂ©tek utoljára cĂ©lzottan azt, hogy a bĂrĂłt mennyire könnyű „rábeszĂ©lni” a tĂ©ves jĂłváhagyásra?