Mesterséges intelligencia a pénzügyi és banki szektorban•2025. december 22.•By 3L3C

Az LLM-bírók rövid kontrolltokenekkel megvezethetők. Mit jelent ez banki AI-ban és egészségügyben, és hogyan védekezz gyakorlatban?

LLM biztonságadversarial promptokAI governancebanki compliancetelemedicinamodellértékelés

Featured image for LLM-bírók megvezetése: kockázat bankban és gyógyításban

LLM-bírók megvezetése: kockázat bankban és gyógyításban

Egy kellemetlen tény: a modern AI-fejlesztésben használt „LLM-as-a-Judge” (amikor egy nagy nyelvi modell bírálja egy másik modell válaszát) sokszor bináris döntéseket hoz. Igen vagy nem. Megfelelő vagy nem megfelelő. Elfogadható vagy elutasítandó. A friss kutatás, az AdvJudge-Zero azt mutatja meg, hogy ezek a döntések rövid, természetesnek tűnő token-sorozatokkal nagy arányban átfordíthatók – jellemzően a helyes „Nem” helyett hibás „Igenre”.

Ez nem akadémiai finomkodás. Banki környezetben az LLM-bírók egyre gyakrabban kerülnek be modellértékelésbe, prompt- és válaszminőség-ellenőrzésbe, csalásfelderítéshez kapcsolt szöveges elemzésbe, sőt a belső szabályzatoknak megfelelő kommunikáció automatikus ellenőrzésébe. Egészségügyben pedig ugyanez a logika jelenik meg a tünettriázs, telemedicina-chat, klinikai összefoglalók és döntéstámogatás terén: ha egy „bíró” vagy „gatekeeper” modell rosszul enged át valamit, annak ára nagyon gyorsan valós kár lesz.

A posztban kimondom a lényeget: ha AI-t használsz döntési kapuként, akkor védened kell a bírót is, nem csak a választ adó modellt. És adok egy gyakorlatias ellenőrzőlistát is, amit pénzügyi és egészségügyi csapatok egyaránt tudnak alkalmazni.

Mit állít az AdvJudge-Zero, közérthetően?

Válasz röviden: a kutatók találtak egy módszert, amivel semmiből kiindulva olyan rövid „vezérlő tokeneket” (control tokens) keresnek, amelyek megzavarják a bíró modell bináris döntését, és hibásan „átengednek” rossz válaszokat.

A cikk kulcsállításai, emberi nyelvre fordítva:

A mai poszt-tréning (RLHF, DPO, RLAIF) központi eleme, hogy valami jutalmazza vagy bünteti a modellek viselkedését. Sokszor ezt „bíró” modellek teszik.
Léteznek rövid, alacsony perplexitású (tehát nem feltűnően „random”) token-sorozatok, amik eltolják a bíró utolsó rétegének logit-különbségét, és így a döntés átfordul.
Ezek nem feltétlen „worst-case” támadó stringek. A szerzők szerint a tokenminták olyanok, amiket egy policy modell a tréning során akár magától is előállíthat, vagyis ez reális reward-hacking kockázat.
A módszerük (AdvJudge-Zero) a modell következő-token eloszlásából és beam searchből építkezve talál ilyen sorozatokat.
Védekezésként azt mutatják, hogy LoRA-alapú adversarial training kevés, kontrolltokenes példával is érdemben csökkentheti a téves „Igeneket”, miközben az értékelési minőség nagyjából megmarad.

Ha egy mondatban kell összefoglalnom: a bíró modell „refusal” irányát (az elutasítást) lehet finoman, mégis hatásosan kiütni.

Miért számít ez a pénzügyben és bankban – és mi köze az egészségügyhöz?

Válasz röviden: mert ugyanaz a logika működik: ha egy AI-réteg „kapuőrként” dönt arról, mi mehet tovább, akkor a kapuőr manipulálása rendszerszintű kockázat.

A „Mesterséges intelligencia a pénzügyi és banki szektorban” sorozatban sokat beszélünk arról, hogy AI-t használunk:

csalásfelderítésre (fraud) és gyanús kommunikációk szűrésére,
hitelkockázat-értékelésre és ügyfél-interakciók elemzésére,
automatizált ügyfélszolgálatra és panaszkezelés előszűrésre,
szabályzat- és megfelelőségi (compliance) ellenőrzésre.

Ezekben a rendszerekben az LLM-bíró tipikusan olyan kérdéseket válaszol meg, mint:

„A válasz megfelel a belső policy-nek?”
„Tartalmaz tiltott tanácsot vagy kényes személyes adatot?”
„A panasz jogosnak tűnik-e, és melyik workflow-ba menjen?”

Egészségügyi párhuzam:

„A beteg leírása alapján sürgős-e az eset?”
„A válasz tartalmaz-e veszélyes önkezelési tanácsot?”
„A tünetek alapján mehet-e otthoni megfigyelésre, vagy orvosi ellátás kell?”

A bíró átverése itt nem „csak” pontatlanság. Hamis pozitív (rossz „Igen”) lehet:

bankban: jóváhagyott, de valójában szabálytalan kommunikáció; félrevezető pénzügyi tanács; csalásos minta „tiszta” minősítése;
egészségügyben: veszélyes tanács átengedése; tévesen megnyugtató triázs; kockázatos gyógyszer-interakció figyelmen kívül hagyása.

A valós kockázat nem az, hogy az AI néha téved. Hanem az, hogy egy másik AI-réteg legitimálja a tévedést.

Hogyan néz ki egy „kontrolltokenes” megvezetés a gyakorlatban?

Válasz röviden: úgy, hogy a támadó (vagy a tréning alatt a modell) hozzáad néhány ártalmatlannak tűnő tokent, amitől a bíró „engedékenyebb” lesz, és átcsúszik valami, amit normál esetben elutasítana.

1) Banki példa: compliance-szűrő megkerülése

Képzeld el, hogy egy LLM-alapú rendszer ellenőrzi az ügyfélszolgálati válaszokat, és a bíró dönti el: mehet-e ki az üzenet.

Normál eset: a bíró „Nem”-et mond egy olyan szövegre, ami túl konkrét befektetési tanácsot ad vagy nem megfelelő kockázati figyelmeztetést tartalmaz.
Kontrolltokenes eset: néhány extra token (nem feltétlen értelmes szó, de nyelvileg hihető mintázat) eltolja a bíró döntését „Igen”-re.

A veszélyes rész: az üzenet kimegy, auditnál pedig az látszik, hogy „AI jóváhagyta”.

2) Egészségügyi példa: telemedicina válasz gatekeeping

Egy telemedicina chatbotnál a bíró feladata lehet az, hogy kiszűrje a veszélyes tanácsokat, vagy riasztást adjon, ha sürgősségi tünetek szerepelnek.

Normál eset: „Nem” (blokkolás) egy gyógyszeradagolási tanácsra, ha hiányzik a betegadat.
Kontrolltokenes eset: a bíró átengedi, mert a tokenek a „refusal irányt” gyengítik.

Itt azonnal megjelenik a betegbiztonság és felelősségi kockázat.

Miért pont a bináris döntések sérülékenyek?

Válasz röviden: mert egy bináris osztályozásnál gyakran elég egy kicsi eltolás a döntési határnál, és máris átfordul a címke.

A kutatás egyik technikai üzenete az, hogy a kontrolltokenek a modell belső reprezentációiban alacsony rangú (low-rank) „puha módusban” koncentrált elmozdulást okoznak. Magyarul: nem „szétverik” a modellt, hanem egy konkrét irányba pöccintik. Ha ez az irány anti-aligned a bíró elutasítási irányával, akkor a rendszer hajlamosabb lesz „Igen”-t mondani.

Ez a banki és egészségügyi rendszerekben azért kritikus, mert sok helyen pont ilyen bináris kapuk vannak:

approved / rejected
safe / unsafe
compliant / non-compliant
urgent / not urgent

Minél nagyobb a nyomás az automatizálásra (ünnepi időszakban megnövekvő ügyfélforgalom, év végi zárások, ügyeleti leterheltség), annál több döntést bízunk ezekre a kapukra. 2025 decemberében ez különösen aktuális: bankoknál erős a tranzakciós csúcs, egészségügyben a szezonális légúti megbetegedések miatt nő a telemedicina-terhelés. Ilyenkor a „tévesen átengedett” esetek darabszáma gyorsan felpörög.

Mit tehet egy pénzügyi vagy egészségügyi csapat? Gyakorlati védekezés

Válasz röviden: több rétegben kell védeni: tesztelés kontrolltokenek ellen, több-bíró stratégia, bizonytalanságkezelés és célzott adversarial finomhangolás.

1) Vezess be „judge red teaminget” kontrolltokenekre

Ne csak a generáló modellt támadd tesztben, hanem a bírót is.

Készíts tesztkészletet olyan esetekből, ahol biztosan „Nem” a helyes döntés (tiltott tanács, policy-sértő szöveg, rossz matek/érvelés, téves orvosi állítás).
Injektálj rövid, változatos „zavaró” tokenmintákat a bemenet elejére/végére.
Mérd külön a false positive rate-et (téves „Igen”). Ez itt a legfontosabb mutató.

2) Ne egyetlen bináris bíró döntsön

Bankban és egészségügyben is működik a „kétkulcsos” logika.

Használj két eltérő architektúrájú vagy eltérő tréningű bírót.
Ha nem értenek egyet, menjen emberhez vagy egy szigorúbb workflow-ba.
Legyen „fallback” szabály-alapú szűrő is (regex/szabálymotor) a legkritikusabb tiltásokra.

3) Kérj magyarázatot, és pontozz több dimenzióban

A puszta „Igen/Nem” helyett kérj:

rövid indoklást (miért safe/unsafe),
több részpontszámot (pl. policy megfelelés, adatvédelem, károkozási kockázat),
és egy bizonytalansági jelzést (pl. „low/medium/high confidence”).

Ez nem old meg mindent, de csökkenti annak esélyét, hogy egyetlen logit-eltolás mindent eldönt.

4) Célzott adversarial tréning (LoRA) – kicsiben is működhet

A kutatás szerint LoRA-alapú adversarial tréning kis mintán is csökkentheti a téves „Igeneket”. A gyakorlati recept:

Gyűjts 100–500 olyan példát, ahol a bíró hibázik kontrolltokenekkel.
Finomhangolj LoRA-val úgy, hogy a bíró ellenállóbb legyen ezekre a mintákra.
Validáld külön:
- a false positive rate csökkenését,
- és azt, hogy a bíró nem válik „mindent elutasítóvá” (ne nőjön túl a false negative).

5) Auditálható döntési lánc és riasztás

A banki megfelelőség és az egészségügyi betegbiztonság közös igénye: utólag vissza kell tudni fejteni, mi történt.

Logold a bíró bemenetét/kimenetét és a döntési okokat.
Jelöld, ha „gyanús tokenminta” jelenik meg (szokatlan prefix/suffix, ismétlődő furcsa tokenek).
Állíts be riasztást, ha a „Nem → Igen” flip aránya hirtelen megugrik egy csatornán.

Gyors kérdések, amiket a vezetés fel fog tenni (és jó, ha van válasz)

Mitől „reális” ez a támadás? Mert nem feltétlenül kell értelmetlen karakterhalmaz. A kutatás hangsúlyozza, hogy alacsony perplexitású, tehát hihető tokenek is tudnak hatni.

Ez csak értékelés, nem éles döntés, akkor miért baj? Mert a poszt-tréning és modellválasztás során a bíró „megtanítja” a rendszert arra, hogyan kapjon jutalmat. Ha a jutalmazás meghekkelhető, a modell rossz irányba tanul.

Elég, ha erősebb modellt veszünk bíróként? Nem. Az erősebb bíró lehet ellenállóbb, de a kutatás épp azt mutatja, hogy nagy, nyílt súlyú és specializált bírók is sérülékenyek. A védekezés rétegezés kérdése.

Következő lépés: bíróbiztonság mint alapkövetelmény

A banki AI-rendszerekben gyakran az a reflex, hogy „a generáló modellt kell megfogni”. Én azt látom, hogy 2026 felé közeledve a nyerő stratégia az lesz, ha a bírót (és a döntési kapukat) ugyanúgy termékként kezeled, mint a front-end modellt: SLA, tesztek, monitoring, adversarial tréning, és világos emberi eskaláció.

Ha a cél lead generálás, akkor a legjobb beszélgetésindító nem az, hogy „használjunk AI-t”, hanem ez: „Hogyan bizonyítjuk, hogy az AI döntése nem manipulálható?” Bankban és egészségügyben is ez lesz az a kérdés, amin a bizalom múlik.

A következő projekttervezésnél nálatok van már külön backlog a judge hardeningre? Ha nincs, most érdemes felvenni – még azelőtt, hogy egy téves „Igen” üzleti vagy betegbiztonsági incidenssé nő.