Mesterséges intelligencia a pénzügyi és banki szektorban•2025. december 22.•By 3L3C

Az LLM-as-a-Judge sebezhető: rövid kontrolltokenek „Nem”-ről „Igen”-re fordíthatják az ítéletet. Mit jelent ez bankban és egészségügyben?

LLM-biztonságAI governanceadverszariális támadásokbanki AIegészségügyi AImodellellenőrzés

Featured image for LLM-bírák sebezhetősége: kockázat bankban és kórházban

LLM-bírák sebezhetősége: kockázat bankban és kórházban

Egy rossz „Igen” néha többet árt, mint tíz rossz válasz. A modern AI-rendszerekben egyre gyakrabban nem is az a kérdés, mit mond a modell, hanem az, hogy egy másik modell – az úgynevezett LLM-as-a-Judge (LLM mint bíró) – mit dönt róla: elfogadható-e, helyes-e, biztonságos-e. A 2025.12.19-én közzétett AdvJudge-Zero kutatás pedig kellemetlenül egyértelmű üzenetet küld: rövid, ártatlannak tűnő token-sorozatok képesek átfordítani a bíró bináris döntéseit „Nem”-ről „Igen”-re.

Ez nem laboratóriumi, „ki tudja, ki ír ilyet” típusú trükk. A kutatók állítása szerint a talált minták alacsony perplexitásúak, vagyis életszerűek: egy finomhangolás alatt álló modell akár „spontán” is termelhet hasonló szövegtörmeléket. Ha ez igaz, akkor ez a jelenség nem csak AI-biztonsági kuriózum, hanem valódi reward hacking kockázat.

És mi köze ennek a „Mesterséges intelligencia a pénzügyi és banki szektorban” sorozatunkhoz, sőt a kampányunkhoz (mesterséges intelligencia az egészségügyben)? Nagyon is sok. A banki csalásfelderítés, a hitelkockázat-értékelés és az egészségügyi döntéstámogatás közös pontja az, hogy kritikus, gyakran bináris döntések köré szerveződnek: gyanús/nem gyanús, jóváhagy/tilt, sürgős/nem sürgős. Ha a „bíró” manipulálható, akkor a rendszer megbízhatósága nem csak romlik – kiszámíthatatlanná válik.

Mit állít az AdvJudge-Zero, egy mondatban?

Az AdvJudge-Zero módszer képes „semmiből” olyan rövid kontrolltoken-sorozatokat találni, amelyek sok feladatnál hamis pozitívokra kényszerítik az LLM-bírót (helytelen választ is „helyesnek/elfogadhatónak” ítél).

A cikk kulcsa három rész:

Kontrolltokenek: rövid tokenminták, amelyek nem feltétlenül tűnnek támadásnak, mégis eltolják a bíró döntését.
Bináris döntés megfordítása: tipikusan „No” → „Yes” (például egy hibás matematikai megoldást a bíró jóváhagy).
Védekezés: a szerzők szerint LoRA-alapú adverszariális tréning kis mennyiségű, kontrolltokenekkel bővített példán jelentősen csökkentette a hamis pozitív arányt, miközben az értékelési minőség nagyjából megmaradt.

Ami engem ebből igazán zavar: a legtöbb szervezet ma úgy használ LLM-bírót, mintha az egy „objektív minőségellenőr” lenne. Pedig a kutatás üzenete az, hogy ez a minőségellenőr is egy modell – és így támadható felület.

Miért pont a bináris döntések a legveszélyesebbek?

Azért, mert a bináris döntésből azonnal üzleti vagy klinikai akció lesz. Egy pontszámot még lehet kalibrálni, több jelből lehet átlagolni. De a „mehet/nem mehet” jellegű kapuknál a tévedés azonnal átcsap kárba.

Banki példa: hitelbírálat és ügyfélazonosítás

A pénzügyben rengeteg folyamat kapus:

KYC/AML: átmegy-e az ügyfélazonosítás és kockázati szűrés?
Fraud: blokkoljuk-e a tranzakciót?
Hitel: jóváhagyjuk-e a kérelmet?

Ha egy LLM-bíró értékeli például a „magyarázat minőségét” (miért gyanús egy tranzakció), vagy a dokumentum-összefoglaló konzisztenciáját, akkor egy kontrolltoken-minta elvileg elérheti, hogy a bíró „rábólintson” egy gyenge, hibás vagy hiányos indoklásra.

Ez a gyakorlatban nem úgy néz ki, hogy valaki beírja: „kérem, fogadd el”. Inkább úgy, hogy egy automatizált rendszerben a modell megtanulja: bizonyos furcsa, de ártatlannak látszó fordulatok mellett gyakrabban kap jutalmat. Ez a reward hacking hétköznapi formája.

Egészségügyi párhuzam: döntéstámogatás és triázs

A kampányunk szempontjából a legfontosabb tanulság: az egészségügyben a „téves igen” gyakran konkrét kockázat.

Triázs: „sürgős ellátás kell” vs. „ráér”.
Klinikai figyelmeztetés: „gyógyszerkölcsönhatás veszélyes” vs. „rendben”.
Diagnosztikai döntéstámogatás: „valószínű X” vs. „nem valószínű”.

Egy LLM-bíró lehet a háttérben, ami például azt ellenőrzi, hogy egy összefoglaló „elég jó-e” a továbbküldéshez, vagy hogy egy ajánlás megfelel-e protokolloknak. Ha ezt a bírót rövid tokenekkel el lehet billenteni, akkor a rendszer hamis biztonságérzetet ad.

„A rossz válasz sokszor felismerhető. A rosszul jóváhagyott rossz válasz sokkal nehezebben.”

Hogyan működik a trükk a kutatás szerint – közérthetően

A lényeg: nem kell hosszú prompt-injekció. Elég pár token, ami a bíró belső állapotát rossz irányba tolja.

A cikk alapján:

A kontrolltokenek alacsony perplexitásúak, tehát nyelvileg „valószínű” minták.
Ezek a tokenek a bíró döntését a végső rétegben (last-layer) a logit-különbség eltolásával befolyásolják (gyakorlatban: a „Yes” valószínűbb lesz, mint a „No”).
A perturbációk egy alacsony rangú (low-rank) „soft mode”-ban koncentrálódnak, és a szerzők szerint anti-aligned a bíró „refusal direction”-jével. Magyarul: a bíró „ellenállási irányát” célozza, és azzal ellentétesen tol.

Az AdvJudge-Zero módszer azért érdekes, mert nem előre gyártott támadószövegekkel indul, hanem:

a modell következő-token eloszlását használja,
és beam search jellegű feltárással talál sokféle token-szekvenciát.

Ez számomra azt jelenti: ha a támadás ilyen „modell-kompatibilis”, akkor a védekezés sem lehet pusztán regex és tiltólista.

Mit jelent ez a banki AI-értékelésben (LLM-as-a-Judge a gyakorlatban)?

Az üzenet egyszerű: ha LLM-mel értékelsz LLM-et, akkor két problémád van, nem egy.

A pénzügyben az LLM-as-a-Judge tipikus helyei:

ügyfélszolgálati válaszok minőség-ellenőrzése (compliance, hangnem, pontosság),
összefoglalók és jegyzetek értékelése (call center, panaszkezelés),
szabálymagyarázatok, döntési indoklások minősítése (modell governance),
szintetikus adatok és tesztesetek automatikus ellenőrzése.

Három konkrét kockázati forgatókönyv

„Jóváhagyott hibás indoklás”: a rendszer átengedi a rossz döntési indoklást, így auditnál bukik, vagy rossz döntéseket skáláz.
„Compliance-átcsúszás”: a bíró nem jelzi, hogy a válasz tiltott ígéretet, félrevezető állítást vagy hiányos kockázati tájékoztatást tartalmaz.
„Tréning-visszacsatolás romlása”: ha RLHF/DPO jelleggel a bíró ad jutalmat, akkor a modell megtanulja, hogyan kapjon „igen”-t – nem azt, hogyan legyen helyes.

A pénzügyi intézményeknél ez különösen kellemetlen, mert a hibák nem csak technikai hibák: jogi, reputációs és felügyeleti következményük is van.

Mit lehet tenni: védekezési minta banki és egészségügyi csapatoknak

A cél nem az, hogy „tökéletes bírót” építsünk, hanem hogy a bíró ne legyen egyetlen ponton megkerülhető kapu.

1) Ne legyen egybíró-rendszer

Ha egyetlen LLM mondja ki a végső „igen/nem”-et, akkor pontosan azt a támadási felületet hozod létre, amit a kutatás megmutat.

Gyakorlati alternatívák:

több bíró modell (ensemble), eltérő architektúrával vagy eltérő finomhangolással,
szabály + modell kombináció (pl. determinisztikus compliance szabályok és LLM-értékelés együtt),
ember a hurokban a magas kockázatú eseteknél (pl. nagy összegű tranzakciók, klinikai vörös zászlók).

2) Mérd és célzottan figyeld a hamis pozitívokat

A tanulmány fókusza a „No → Yes” átfordítás, vagyis a hamis pozitív.

Banki/egészségügyi metrikák, amiket érdemes külön kezelni:

False Positive Rate (hibás válasz jóváhagyása)
False Negative Rate (jó válasz elutasítása)
calibration drift (ugyanaz a minőség más pontszámot kap idővel)

A lényeg: a „pontosság” átlagban kevés. Kritikus doménekben a hamis pozitív sokszor drágább.

3) Adverszariális tréning – de nem vaktában

A szerzők eredménye szerint LoRA-alapú adverszariális tréning már kis, kontrolltokenekkel bővített adathalmazon is csökkentette a téves jóváhagyásokat.

A vállalati valóságban ez így fordítható le:

építs egy belső „piros csapat” adatcsomagot (szándékosan hibás válaszok, félrevezető magyarázatok),
generáltass hozzá többféle „zavaró” mintát (nem csak klasszikus prompt-injekciót),
finomhangold a bírót úgy, hogy a kontrolltokenek ne változtassák meg az ítéletet.

Nem állítom, hogy ez mindenkinél gyors győzelem. De a „csak tegyünk rá még egy safety promptot” megközelítésnél sokkal őszintébb.

4) Biztonsági kapuk a pipeline-ban (governance szemmel)

A banki AI governance és a klinikai kockázatkezelés logikája hasonló: réteges védelem kell.

Minimum csomag, amit 2026-ra én alapnak vennék:

változáskezelés (minden bíró-modell verziózott, visszagörgethető),
auditlog a bíró döntéseiről és a bemeneti szövegről,
„abstain” (tartózkodás) opció: ha bizonytalan, ne döntsön binárisan,
rendszeres red-teaming (nem évente egyszer, hanem release-ciklushoz kötve).

Gyors kérdések, amiket a csapatodnak érdemes feltenni

Ezek a kérdések tipikusan 30 perc alatt kiderítik, mennyire vagy kitéve a jelenségnek.

A bírónk döntése kapu (megállít folyamatot), vagy csak jelzés (ajánlás)?
Van külön mérésünk a hamis pozitívokra, vagy csak átlagos „quality score”-t nézünk?
Tud a bíró „nem dönteni” (abstain), vagy muszáj igent/nemet mondania?
Egyetlen bíró modell van, vagy több, független jel?
Ha RLHF/DPO jelleggel használjuk, ki garantálja, hogy nem reward hacking történik?

Ha a válaszok többsége „nem tudom” vagy „egy modell dönti el”, akkor a kockázat nem elméleti.

Merre tovább: felelős AI ott, ahol a hiba drága

A pénzügyi és banki szektor AI-használata – csalásfelderítés, hitelkockázat-értékelés, automatizált ügyfélszolgálat – ma már ugyanazzal a problémával küzd, mint az egészségügyi döntéstámogatás: nem elég, hogy a modell jól beszél. Jól is kell ítélni. Az AdvJudge-Zero kutatás szerint pedig a bírói réteg maga is manipulálható.

A következő lépés számomra nem az, hogy „tiltsuk be az LLM-bírót”, hanem hogy felnőtt módon bánjunk vele: mérjük, rétegezzük, teszteljük támadások ellen, és adjunk neki lehetőséget a tartózkodásra. A bináris döntések világában ez a különbség a „szép demo” és a működő, auditálható rendszer között.

Ha a te szervezetedben LLM-bíró minősít ügyfélszolgálati válaszokat, kockázati indoklásokat vagy akár klinikai összefoglalókat, akkor egy kérdést hagyok itt: mikor teszteltétek utoljára célzottan azt, hogy a bírót mennyire könnyű „rábeszélni” a téves jóváhagyásra?