A RAG-os orvosi AI akkor a legveszélyesebb, amikor „szinte igazat” mond. Új kutatás szerint az embedding-alapú detektálásnak vakfoltjai vannak.

RAG hallucinációk az egészségügyben: amit a hasonlóság nem lát
Egy diagnózistámogató rendszerben nem az a legijesztőbb, amikor az AI látványosan téved. Az a veszélyes, amikor meggyőzően, „orvosi hangon” mond valamit, ami szinte stimmel, és még az automatikus ellenőrzések is átengedik. A 2025.12.22-én frissített arXiv-tanulmány pontosan erre mutat rá: bizonyos RAG (Retrieval-Augmented Generation) rendszerekben a hallucinációk egy része szemantikailag annyira hasonlít a helyes válaszhoz, hogy az embedding-alapú detektorok gyakorlatilag vakok rá.
Ez a felismerés különösen fontos a „Mesterséges intelligencia az egészségügyben” sorozatunkban, mert a kórházi tudásbázisokra épülő chatbotok, telemedicinás triázs-rendszerek és klinikai dokumentációt segítő eszközök egyre gyakrabban használnak RAG-ot. A tanulság nem az, hogy „a RAG rossz”. Hanem az, hogy a RAG önmagában nem garancia a pontosságra, és a legelterjedtebb automatizált ellenőrzéseknek kimutatható, elvi korlátai vannak.
Miért hallucinál még a RAG is, ha „dokumentumokra támaszkodik”?
A rövid válasz: mert a modell nem a dokumentum „igazságtartalmát” érti, hanem mintázatokat követ. A RAG úgy működik, hogy:
- visszakeres releváns szövegrészeket (irányelvek, protokollok, belső tudásbázis, betegtájékoztatók),
- majd a nyelvi modell ezekből és a saját tanult mintázataiból generál választ.
A hiba gyakran ott csúszik be, hogy a generálás során a modell:
- összemossa két hasonló kórkép kritériumait,
- „kitölti” a hiányzó részeket egy tipikusnak tűnő, de nem igaz állítással,
- vagy jól hangzó, de nem a visszakeresett bizonyítékból következő mondatot ír.
Egészségügyi példa: amikor a válasz „szinte igaz”
Képzelj el egy telemedicinás chatet, ahol a beteg gyógyszer-interakcióról kérdez. A RAG visszahoz két releváns szakaszt, de a modell a végén hozzátesz egy mondatot, ami hangulatában és szóhasználatában stimmel, viszont pont a kontraindikációt keveri össze egy másik szerrel. A válasz összképe hiteles, az embedding-hasonlóság a forrás szövegéhez magas, mégis egy kritikus rész hibás.
Ez a „szinte igaz” kategória a legnehezebb.
A tanulmány fő üzenete: a „Szemantikai Illúzió” jelensége
A kutatás központi állítása: vannak hallucinációk, amelyek felszíni szemantikájuk alapján (embeddingekkel mérve) megkülönböztethetetlenek a helyes, forráshű válaszoktól. Ezt nevezik Semantic Illusion-nak, vagyis szemantikai illúziónak.
A szerző nem csak azt mondja, hogy „néha nem működik a detektor”, hanem garanciákkal vizsgálja, mire képesek ezek a módszerek.
Miért fontos a „tanúsított” (certified) megközelítés?
A legtöbb hallucináció-detektor egy pontszámot ad (pl. hasonlóság, NLI-konfidencia), aztán beállítunk egy küszöböt. De orvosi környezetben a kérdés inkább ez:
„Ha azt mondom, 95%-ban megbízhatóan kiszűröm a hallucinációkat, akkor ezt tudom is tartani, amikor élesben jönnek a valós esetek?”
A tanulmány erre használ konform predikciót (conformal prediction): ez egy statisztikai keret, amivel a heurisztikus pontszámokból olyan döntési szabályt készítenek, ami véges mintán is ad (1–α) lefedettségi garanciát. Magyarul: ha 95%-os cél-lefedettséget állítunk be, akkor a módszer a kalibrációs halmazon úgy állít küszöböt, hogy ezt a lefedettséget tartsa.
Mit találtak? Két világ: szintetikus vs. „valós” hallucinációk
A legfontosabb eredmény egy kellemetlen kettősség.
1) Szintetikus hallucinációk esetén az embedding-alapú detektálás „szép”
A Natural Questions típusú (szintetikusnak tekintett) hallucinációkon a szerzők azt mutatták, hogy embedding módszerekkel elérhető:
- 95% lefedettség
- 0% hamis riasztási arány (FPR)
Ez elsőre azt üzeni: „szuper, működik”. Sok csapat itt áll meg, mert a belső tesztkészletük is hasonló jellegű.
2) Valós, RLHF-aligned modellekből származó hallucinációknál összeomlik
A HaluEval (valósabb, RLHF-finomhangolt modellekből származó) hallucinációin ugyanez a megközelítés katasztrofálisan teljesít:
- cél 95% lefedettségnél 100% FPR
A 100% FPR itt azt jelenti, hogy a rendszer gyakorlatilag minden jó választ is rossznak jelöl, ha tartani akarja a lefedettségi garanciát. Klinikai folyamatban ez vállalhatatlan: a felhasználók vagy kikapcsolják az ellenőrzést („mert mindig riaszt”), vagy elárasztja őket a zaj.
Mitől ilyen brutális a különbség?
A magyarázat a „disztribúciós farok” (tail) jelensége: a legnehezebb hallucinációk a valós adatokban nem durva tévedések, hanem pont azok a mondatok, amelyek nagyon közel vannak a helyeshez.
Ezeknél a hibáknál a felszíni szemantika (embedding) nem ad elég jelzést. A konform predikció pedig, ha garanciát akar, kénytelen olyan küszöböt választani, ami végül mindent kidob.
Mi a helyzet az NLI-vel és a „bíró” modellekkel?
A tanulmány egy józan részletet is megmutat: a természetes nyelvi következtetés (NLI) típusú modellek AUC-ja 0,81 körüli lehet ezen a nehéz adaton. Ez nem rossz.
De a valós problémát nem az átlagos teljesítmény adja, hanem a legrosszabb eset:
- a „legnehezebb” hallucinációk szemantikailag összefolynak a helyes válaszokkal,
- ezért a küszöbölés vagy túl engedékeny lesz (átenged hibát), vagy túl szigorú (kidob mindent).
A szerzők egy erős ellenpontot is adnak: egy nagy, érvelni képes modell „bíróként” (GPT-4) ugyanazon adaton 7% FPR-t ér el, 95%-os konfidencia intervallummal: [3,4%, 13,7%].
Ez két dolgot jelent egyszerre:
- a feladat megoldható (nem reménytelen),
- de nem feltétlenül „felszíni” hasonlósági jelekkel; kell hozzá érvelés, következtetés, kontextus-logika.
Egészségügyben ez pontosan az a különbség, mint amikor egy protokoll kivonata hasonlít egy másikra, de a döntő pont (pl. vesefunkció, terhesség, gyógyszerkombináció) miatt mégis más a teendő.
Mit jelent ez diagnózistámogatásban és telemedicinában?
A válasz: a legnagyobb kockázat ott van, ahol a hibát nehéz észrevenni, de nagy a tét. A RAG-os megoldások egészségügyi felhasználásai közül különösen érintettek:
Diagnózistámogató rendszerek
- Differenciáldiagnózis: „nagyon hasonló tünetek, nagyon eltérő teendő”.
- Ritka betegségek: kevés adat, sok „kitöltés”.
Telemedicina és betegtriázs
- rossz riasztási küszöb = túl sok „menjen sürgősségire” vagy túl sok „maradjon otthon”.
- a „szemantikai illúzió” típusú hibák pont jól hangzó tanácsok.
Klinikai adminisztráció, kódolás, dokumentáció
- a modell hihetően fogalmaz, de egy ICD-kód vagy gyógyszeradagolás elcsúszik.
- embedding alapján a dokumentum „stimmel”, valójában a kritikus rész téves.
Gyakorlatias védekezés: 6 lépés, amit én ma is bevezetnék
A legfontosabb állítás: ne csak detektálni próbáld a hallucinációt, hanem tervezz úgy, hogy kicsi legyen a kár, ha mégis átjut.
1) Ne egyetlen jelre építs (embedding önmagában kevés)
Kombináld a következőket:
- forrásidézet-kötelezettség (szakasz-szintű hivatkozás)
- NLI/entailment ellenőrzés
- szabályalapú klinikai guardrail (dózistartományok, kontraindikációk)
2) Kalibrálj valós hibákon, ne csak szintetikus teszten
Ha csak „tankönyvszerű” hallucinációkat tesztelsz, hamis biztonságérzetet kapsz. Kórházi környezetben gyűjts:
- éles pilotból anonim hibajegyeket
- orvosi reviewer címkéket
- olyan eseteket, ahol a modell „majdnem jól” válaszolt
3) Használj konform predikciót ott, ahol döntést hozol
A konform megközelítés értéke nem az, hogy mindent megold, hanem hogy kényszerít a valós trade-off kimondására:
- mekkora lefedettséget vállalsz,
- és ennek mi a költsége FPR-ben.
4) Építs „érvelő ellenőrt” a kritikus pontokra
Nem kell minden mondatot drága bíróval ellenőrizni. Célozd:
- gyógyszerelés, dózis, interakció
- vörös zászlós tünetek
- diagnosztikai kritériumok (pl. score-ok)
5) Kényszerítsd a modellt strukturált válaszra
A szabad szöveg csábító, de veszélyes. Egészségügyben jobban működik:
- „Állítás – bizonyíték – következtetés – bizonytalanság” struktúra
- ellenőrizhető mezők (pl.
javallat,ellenjavallat,forrásrészlet)
6) Tervezd bele a „biztonságos bukást” (safe failure)
Ha a rendszer nem biztos benne, legyen alapértelmezés:
- „nem adok tanácsot, emberi felülvizsgálat kell”
- vagy korlátozott válasz („csak általános tájékoztatás, nem terápiás javaslat”).
Ezt sokan UX-problémának tartják. Szerintem ez betegbiztonsági funkció.
Gyakori kérdések, amiket most érdemes feltenni a saját RAG-projektedben
„Elég, ha magas az embedding-hasonlóság a forráshoz?”
Nem. A tanulmány üzenete szerint pont a legveszélyesebb hibák tudnak magas hasonlóság mellett átcsúszni.
„Ha NLI AUC=0,81, akkor rendben vagyunk?”
Nem feltétlenül. Az AUC átlagos elkülöníthetőséget mér, de a klinikai kockázatot a szélső esetek adják.
„A megoldás az, hogy nagyobb modellt használjunk bírónak?”
Részben. A bíró-modell segíthet, de csak akkor, ha:
- célzottan a kritikus állításokra futtatod,
- van költség- és késleltetés-terved,
- és auditálod, hogyan dönt.
Merre tovább: megbízhatóbb AI az egészségügyben
A „szemantikai illúzió” nekem egy nagyon praktikus figyelmeztetés: a hasonlóság nem egyenlő a helyességgel. Egészségügyi AI-nál ez különösen igaz, mert a döntő információ gyakran egyetlen szó (időtartam, dózis, „nem”, „kivéve”), miközben a mondat többi része hibátlan.
Ha RAG-alapú rendszert építesz diagnózistámogatásra, telemedicinára vagy klinikai tudáskeresésre, akkor a legjobb befektetés most nem egy újabb embedding-trükk, hanem egy olyan architektúra, ami:
- valós hibákon kalibrált,
- kritikus pontokon érvelő ellenőrzést használ,
- és képes biztonságosan nemet mondani.
A következő év (2026) valószínűleg arról fog szólni az egészségügyi AI-ban, hogy ki tudja hitelesen bizonyítani: nem csak okos, hanem kiszámíthatóan biztonságos. Te a saját rendszerednél hol tudnál először mérni egy „szemantikai illúzió” típusú hibát?