Támadásoknak ellenálló AI: biztonság a bankban és kórházban

Mesterséges intelligencia a pénzügyi és banki szektorbanBy 3L3C

Robusztus AI kell: a szöveges kijátszások ugyanúgy veszélyesek a bankban, mint a telemedicinában. Gyakorlati minták, lépések, tervezési elvek.

adversarial támadásokAI robusztusságcsalásfelderítéstelemedicinaML modellekkockázatkezelés
Share:

Featured image for Támadásoknak ellenálló AI: biztonság a bankban és kórházban

Támadásoknak ellenálló AI: biztonság a bankban és kórházban

Egyre több AI-rendszer nem „elromlik”, hanem átverik. Nem hibás adat miatt, nem hardver miatt, hanem azért, mert valaki tudatosan úgy alakítja a bemenetet, hogy a modell félrenézzen. A közösségi médiában ez lehet gyűlöletbeszéd vagy dezinformáció, amit néhány karaktercserével „ártalmatlannak” álcáznak. A pénzügyben lehet egy ügyfélpanasz vagy e-mail, ami átcsúszik a csalás- vagy visszaélés-felderítésen. Az egészségügyben pedig lehet egy triázs-üzenet vagy telemedicinás chat, amit a rendszer rosszul sorol be – és ott ez időt és biztonságot jelent.

A 2025.12.22-i friss arXiv-tanulmány egy nagyon gyakorlati problémára megy rá: hogyan építsünk olyan káros tartalomdetektort, ami egyszerre pontos és ellenáll a „trükközésnek”? A szerzők (Chai, Liu, Ebrahimi, Li, Padmanabhan) egy computational design science szemléletű megoldást javasolnak: előbb tegyük robusztussá a rendszert (általánosítható védelem), majd finomítsuk úgy, hogy közben ne essen szét a pontosság.

És itt jön a csavar, amiért ez a cikk egy banki AI-sorozatban is ül: ugyanazok a támadási minták jelennek meg a pénzügyi és egészségügyi szöveges folyamatokban (ügyfélszolgálat, KYC, csalásjelzés, telemedicina, betegkommunikáció). Aki a tartalommoderációt védi, az sokat tanít arról, hogyan védjük a diagnosztikát és a pénzügyi kockázatkezelést is.

Mit jelent az „adversarial” támadás szövegnél, és miért fáj ennyire?

Adversarial támadás szövegnél az, amikor a támadó úgy módosítja az üzenetet, hogy az embernek ugyanazt jelenti, de a modell már nem ismeri fel. Ez nem sci-fi; ez a mindennapi „kijátszás”.

Tipikus szöveges kijátszási trükkök (amelyekkel számolni kell)

A tanulmány lényege szerint a támadások sokfélék, de vannak közös „invariánsok”: a támadó úgy változtat, hogy a jelentés és a szándék nagyjából megmarad, a felszín viszont megváltozik. Gyakorlatban ilyenek:

  • Karaktercsere, elgépelés, ékezet-variáció (különösen magyarul fáj: „gyülölet” vs „gyűlölet”)
  • Szóközök, írásjelek, emojik, szimbólumok beszúrása
  • Szinonimák, körülírás, kódnyelv (pl. „nem igazán kedvelem” típusú rejtett agresszió)
  • Homoglifák (hasonló alakú betűk más karakterkészletből)

A pénzügyi szektorban ugyanez a logika jelenik meg például:

  • csaló e-mailekben (a tiltott kulcsszavak „szétszabdalása”),
  • ügyfélszolgálati ticketekben (fenyegetés, zsarolás, „chargeback” trükközés),
  • tranzakció-leírásokban és közleményekben (félrevezető szövegezés),
  • AML/KYC folyamatokban (szándékos félreérthetőség).

Az egészségügyben pedig:

  • telemedicinás chatben (tünetek elrejtése vagy eltúlzása),
  • triázs űrlapokon (félrevezető megfogalmazás),
  • betegportál üzenetekben (agresszív, fenyegető, önkárosító tartalom felismerése).

A probléma nem az, hogy a modellek buták. Az, hogy túl szó szerinti a „látásuk”.

Mit ajánl a tanulmány: LLM-alapú mintagenerálás + aggregáció

A szerzők első, nagyon erős állítása: robosztusságot nem utólag „ragasztunk rá” a modellre, hanem már a tervezésnél úgy készítjük az adatokat és a tanítási környezetet, hogy a modell megtanulja: a felszíni forma változhat, a szándék viszont ugyanaz.

LLM-SGA: „tanítsuk meg a modellt, hogyan próbálják átverni”

A javasolt keret neve: LLM-based Sample Generation and Aggregation (LLM-SGA).

  • Mintagenerálás: nagy nyelvi modellel (LLM) olyan variációkat készítenek ugyanarról a szövegről, amelyek adversarial jellegűek – vagyis a jelentés közel azonos, de a felszín módosul.
  • Aggregáció: nem egyetlen „tiszta” példán tanul a detektor, hanem a variánsok csoportján, így nagyobb az esély, hogy támadástól független, általánosítható mintákat tanul.

Ez pénzügyi és egészségügyi szemmel azért érdekes, mert sok szervezet ott rontja el, hogy:

„Veszünk egy modellt, ráengedjük a saját adatainkra, aztán csodálkozunk, hogy a szélsőséges eseteknél elvérzik.”

Az LLM-SGA gondolkodásmódja ezzel szemben: a szélsőséges eset a valóság része, tessék betanítani.

ARHOCD: miért működik az ensemble + dinamikus súlyozás?

A tanulmány második része a konkrét detektor: Adversarially Robust Harmful Online Content Detector (ARHOCD). A lényeg: ha több alapdetektort okosan kombinálsz, és a kombinációt adaptívan állítod, akkor adversarial helyzetben stabilabb maradsz.

1) Több alapdetektor együtt (ensemble)

A több modellből álló ensemble akkor jó, ha tényleg másban erősek. Például:

  • egy modell jól fogja a kulcsszavas, direkt agressziót,
  • egy másik jobban érti a kontextust,
  • egy harmadik jobban kezeli a helyesírási zajt.

Banki analógia: csalásfelderítésben ritkán egy jel dönt. Van szabályalapú réteg, van gépi tanulás, van graf-alapú elemzés. A jó rendszer ezeket nem összekeveri, hanem összehangolja.

2) Dinamikus súlyozás Bayes-frissítéssel

A szerzők szerint nem elég „átlagolni” a modellek kimenetét. Inkább:

  • a súlyokat doméntudással inicializálják (mi számít erős jelnek),
  • majd Bayes-i módon frissítik a súlyokat a minták „jósolhatósága” és az alapmodellek képességei alapján.

Ez a rész a vezetőknek is érthető: nem mindegy, hogy a rendszer mikor kinek hisz. Egy rövid, torzított üzenetnél lehet, hogy a robusztusabb, zajtűrő modell kap nagyobb súlyt. Egy hosszú panaszlevélnél a kontextusérzékeny modell.

Egészségügyi példa: egy sürgős triázs-üzenetnél a rendszernek más jellegű bizonytalanságot kell kezelnie, mint egy kontrollvizsgálati időpontkérésnél. A dinamikus súlyozás ezt a fajta rugalmasságot hozza.

3) Iteratív adversarial training: a támadóval együtt fejlődni

A harmadik elem egy iteratív tréningstratégia: a base modelleket és a súlyozót együtt optimalizálják, adversarial példákon újra és újra.

Pragmatikus üzenet: a védelem nem „projekt”, hanem folyamat.

Mi köze mindennek a banki AI-hoz – és miért érdekes az egészségügynek?

A közös nevező a megbízhatóság. A bankban a megbízhatatlan AI pénzt éget és compliance-kockázat. A kórházban a megbízhatatlan AI betegbiztonsági kockázat.

Banki felhasználások, ahol a robusztusság azonnal ROI

  • Csalásfelderítés szöveges csatornákon: e-mail, chat, ticket, call center jegyzetek.
  • KYC/AML dokumentum- és üzenet-elemzés: szándékos ködösítés, kódnyelv felismerése.
  • Ügyfélpanaszok és visszaélések priorizálása: fenyegetés, zsarolás, koordinált támadások.

Ha a támadók tudják, hogy „egy-két karaktercsere elég”, akkor csinálni fogják. A robusztus detektor ezt a „triviális kijátszást” drágítja meg.

Egészségügyi párhuzam: telemedicina és diagnosztikai AI

A kampány szempontjából a legerősebb híd:

  • A telemedicinás rendszerekben egyre több a szöveges/LLM-alapú komponens.
  • A betegoldali és támadói manipuláció (trollkodás, fenyegetés, félrevezetés) valós.
  • A diagnosztikai és triázs AI-nál a téves negatív (nem ismeri fel a kockázatot) különösen veszélyes.

Az ARHOCD logikája – variánsokkal tanítás, ensemble, adaptív súlyozás, iteratív ellenálló tréning – mintázatot ad arra, hogyan építsünk biztonságosabb klinikai döntéstámogatást.

Gyakorlati ellenőrzőlista: hogyan kezdd el a robusztus AI-t a saját szervezetedben?

A legjobb első lépés nem egy új modell, hanem egy új tesztelési rutin. Én azt látom működni, amikor a csapat ugyanúgy tervez „támadásra”, mint üzemi terhelésre.

1) Hozz létre „kijátszási” tesztkészletet

  • Gyűjts 50–200 tipikus mintát a saját csatornáidból (bank: chat/ticket; egészségügy: telemed üzenetek).
  • Készíts belőlük 5–10 variánst: elgépelés, ékezetcsere, szóköz, szinonima, kódnyelv.
  • Mérd: mennyit esik a pontosság és a recall adversarial változatokon.

2) Ne csak egy modellt használj ott, ahol kockázat van

  • Alacsony kockázat: lehet egyetlen modell.
  • Közepes/magas kockázat: ensemble + szabályréteg + emberi felülvizsgálat.

3) Taníts doméntudással inicializált súlyozást

  • Írd le, mit tekintetek „erős jelnek” (pl. bank: chargeback fenyegetés; egészségügy: önkárosító kulcsfordulatok).
  • Ezeket használd a súlyok kezdeti beállítására.

4) Tedd be a folyamatba az iteratív frissítést

  • Heti/havi retrain ablak.
  • Drift-figyelés: új kijátszási minták felbukkanása.
  • Auditálható változtatások (compliance és betegbiztonság miatt is).

Egy mondatban: a robusztus AI nem attól lesz robusztus, hogy „okos”, hanem attól, hogy rendszerként van megtervezve.

Zárás: a „kijátszhatóság” ma már üzleti és betegbiztonsági KPI

A tanulmány üzenete tiszta: a pontosság önmagában kevés, ha a modell adversarial helyzetben összeomlik. Az LLM-alapú mintagenerálás és az okosan súlyozott ensemble jó irányt ad: úgy növelni az ellenállóképességet, hogy közben a teljesítmény ne menjen a kukába.

A „Mesterséges intelligencia a pénzügyi és banki szektorban” sorozatban én ezt így fordítom le: a csalásfelderítés, a kockázatkezelés és az automatizált ügyfélszolgálat akkor lesz érett, ha a rendszereket kijátszásra tervezett tesztekkel is mérjük, és a védelmet nem egyszeri projektként kezeljük.

Ha most telemedicinás vagy klinikai AI-t építesz (vagy banki szöveg-analitikát), a következő kérdés legyen az asztalon: a rendszered hogyan viselkedik, amikor valaki szándékosan félre akarja vinni?

🇭🇺 Támadásoknak ellenálló AI: biztonság a bankban és kórházban - Hungary | 3L3C