RAG hallucinációk az egészségügyben: amit a hasonlóság nem lát

Mesterséges intelligencia az egészségügybenBy 3L3C

A RAG-os orvosi AI akkor a legveszélyesebb, amikor „szinte igazat” mond. Új kutatás szerint az embedding-alapú detektálásnak vakfoltjai vannak.

RAGhallucinációegészségügyi AIbetegbiztonságtelemedicinadiagnózistámogatásLLM validáció
Share:

Featured image for RAG hallucinációk az egészségügyben: amit a hasonlóság nem lát

RAG hallucinációk az egészségügyben: amit a hasonlóság nem lát

Egy diagnózistámogató rendszerben nem az a legijesztőbb, amikor az AI látványosan téved. Az a veszélyes, amikor meggyőzően, „orvosi hangon” mond valamit, ami szinte stimmel, és még az automatikus ellenőrzések is átengedik. A 2025.12.22-én frissített arXiv-tanulmány pontosan erre mutat rá: bizonyos RAG (Retrieval-Augmented Generation) rendszerekben a hallucinációk egy része szemantikailag annyira hasonlít a helyes válaszhoz, hogy az embedding-alapú detektorok gyakorlatilag vakok rá.

Ez a felismerés különösen fontos a „Mesterséges intelligencia az egészségügyben” sorozatunkban, mert a kórházi tudásbázisokra épülő chatbotok, telemedicinás triázs-rendszerek és klinikai dokumentációt segítő eszközök egyre gyakrabban használnak RAG-ot. A tanulság nem az, hogy „a RAG rossz”. Hanem az, hogy a RAG önmagában nem garancia a pontosságra, és a legelterjedtebb automatizált ellenőrzéseknek kimutatható, elvi korlátai vannak.

Miért hallucinál még a RAG is, ha „dokumentumokra támaszkodik”?

A rövid válasz: mert a modell nem a dokumentum „igazságtartalmát” érti, hanem mintázatokat követ. A RAG úgy működik, hogy:

  1. visszakeres releváns szövegrészeket (irányelvek, protokollok, belső tudásbázis, betegtájékoztatók),
  2. majd a nyelvi modell ezekből és a saját tanult mintázataiból generál választ.

A hiba gyakran ott csúszik be, hogy a generálás során a modell:

  • összemossa két hasonló kórkép kritériumait,
  • „kitölti” a hiányzó részeket egy tipikusnak tűnő, de nem igaz állítással,
  • vagy jól hangzó, de nem a visszakeresett bizonyítékból következő mondatot ír.

Egészségügyi példa: amikor a válasz „szinte igaz”

Képzelj el egy telemedicinás chatet, ahol a beteg gyógyszer-interakcióról kérdez. A RAG visszahoz két releváns szakaszt, de a modell a végén hozzátesz egy mondatot, ami hangulatában és szóhasználatában stimmel, viszont pont a kontraindikációt keveri össze egy másik szerrel. A válasz összképe hiteles, az embedding-hasonlóság a forrás szövegéhez magas, mégis egy kritikus rész hibás.

Ez a „szinte igaz” kategória a legnehezebb.

A tanulmány fő üzenete: a „Szemantikai Illúzió” jelensége

A kutatás központi állítása: vannak hallucinációk, amelyek felszíni szemantikájuk alapján (embeddingekkel mérve) megkülönböztethetetlenek a helyes, forráshű válaszoktól. Ezt nevezik Semantic Illusion-nak, vagyis szemantikai illúziónak.

A szerző nem csak azt mondja, hogy „néha nem működik a detektor”, hanem garanciákkal vizsgálja, mire képesek ezek a módszerek.

Miért fontos a „tanúsított” (certified) megközelítés?

A legtöbb hallucináció-detektor egy pontszámot ad (pl. hasonlóság, NLI-konfidencia), aztán beállítunk egy küszöböt. De orvosi környezetben a kérdés inkább ez:

„Ha azt mondom, 95%-ban megbízhatóan kiszűröm a hallucinációkat, akkor ezt tudom is tartani, amikor élesben jönnek a valós esetek?”

A tanulmány erre használ konform predikciót (conformal prediction): ez egy statisztikai keret, amivel a heurisztikus pontszámokból olyan döntési szabályt készítenek, ami véges mintán is ad (1–α) lefedettségi garanciát. Magyarul: ha 95%-os cél-lefedettséget állítunk be, akkor a módszer a kalibrációs halmazon úgy állít küszöböt, hogy ezt a lefedettséget tartsa.

Mit találtak? Két világ: szintetikus vs. „valós” hallucinációk

A legfontosabb eredmény egy kellemetlen kettősség.

1) Szintetikus hallucinációk esetén az embedding-alapú detektálás „szép”

A Natural Questions típusú (szintetikusnak tekintett) hallucinációkon a szerzők azt mutatták, hogy embedding módszerekkel elérhető:

  • 95% lefedettség
  • 0% hamis riasztási arány (FPR)

Ez elsőre azt üzeni: „szuper, működik”. Sok csapat itt áll meg, mert a belső tesztkészletük is hasonló jellegű.

2) Valós, RLHF-aligned modellekből származó hallucinációknál összeomlik

A HaluEval (valósabb, RLHF-finomhangolt modellekből származó) hallucinációin ugyanez a megközelítés katasztrofálisan teljesít:

  • cél 95% lefedettségnél 100% FPR

A 100% FPR itt azt jelenti, hogy a rendszer gyakorlatilag minden jó választ is rossznak jelöl, ha tartani akarja a lefedettségi garanciát. Klinikai folyamatban ez vállalhatatlan: a felhasználók vagy kikapcsolják az ellenőrzést („mert mindig riaszt”), vagy elárasztja őket a zaj.

Mitől ilyen brutális a különbség?

A magyarázat a „disztribúciós farok” (tail) jelensége: a legnehezebb hallucinációk a valós adatokban nem durva tévedések, hanem pont azok a mondatok, amelyek nagyon közel vannak a helyeshez.

Ezeknél a hibáknál a felszíni szemantika (embedding) nem ad elég jelzést. A konform predikció pedig, ha garanciát akar, kénytelen olyan küszöböt választani, ami végül mindent kidob.

Mi a helyzet az NLI-vel és a „bíró” modellekkel?

A tanulmány egy józan részletet is megmutat: a természetes nyelvi következtetés (NLI) típusú modellek AUC-ja 0,81 körüli lehet ezen a nehéz adaton. Ez nem rossz.

De a valós problémát nem az átlagos teljesítmény adja, hanem a legrosszabb eset:

  • a „legnehezebb” hallucinációk szemantikailag összefolynak a helyes válaszokkal,
  • ezért a küszöbölés vagy túl engedékeny lesz (átenged hibát), vagy túl szigorú (kidob mindent).

A szerzők egy erős ellenpontot is adnak: egy nagy, érvelni képes modell „bíróként” (GPT-4) ugyanazon adaton 7% FPR-t ér el, 95%-os konfidencia intervallummal: [3,4%, 13,7%].

Ez két dolgot jelent egyszerre:

  1. a feladat megoldható (nem reménytelen),
  2. de nem feltétlenül „felszíni” hasonlósági jelekkel; kell hozzá érvelés, következtetés, kontextus-logika.

Egészségügyben ez pontosan az a különbség, mint amikor egy protokoll kivonata hasonlít egy másikra, de a döntő pont (pl. vesefunkció, terhesség, gyógyszerkombináció) miatt mégis más a teendő.

Mit jelent ez diagnózistámogatásban és telemedicinában?

A válasz: a legnagyobb kockázat ott van, ahol a hibát nehéz észrevenni, de nagy a tét. A RAG-os megoldások egészségügyi felhasználásai közül különösen érintettek:

Diagnózistámogató rendszerek

  • Differenciáldiagnózis: „nagyon hasonló tünetek, nagyon eltérő teendő”.
  • Ritka betegségek: kevés adat, sok „kitöltés”.

Telemedicina és betegtriázs

  • rossz riasztási küszöb = túl sok „menjen sürgősségire” vagy túl sok „maradjon otthon”.
  • a „szemantikai illúzió” típusú hibák pont jól hangzó tanácsok.

Klinikai adminisztráció, kódolás, dokumentáció

  • a modell hihetően fogalmaz, de egy ICD-kód vagy gyógyszeradagolás elcsúszik.
  • embedding alapján a dokumentum „stimmel”, valójában a kritikus rész téves.

Gyakorlatias védekezés: 6 lépés, amit én ma is bevezetnék

A legfontosabb állítás: ne csak detektálni próbáld a hallucinációt, hanem tervezz úgy, hogy kicsi legyen a kár, ha mégis átjut.

1) Ne egyetlen jelre építs (embedding önmagában kevés)

Kombináld a következőket:

  • forrásidézet-kötelezettség (szakasz-szintű hivatkozás)
  • NLI/entailment ellenőrzés
  • szabályalapú klinikai guardrail (dózistartományok, kontraindikációk)

2) Kalibrálj valós hibákon, ne csak szintetikus teszten

Ha csak „tankönyvszerű” hallucinációkat tesztelsz, hamis biztonságérzetet kapsz. Kórházi környezetben gyűjts:

  • éles pilotból anonim hibajegyeket
  • orvosi reviewer címkéket
  • olyan eseteket, ahol a modell „majdnem jól” válaszolt

3) Használj konform predikciót ott, ahol döntést hozol

A konform megközelítés értéke nem az, hogy mindent megold, hanem hogy kényszerít a valós trade-off kimondására:

  • mekkora lefedettséget vállalsz,
  • és ennek mi a költsége FPR-ben.

4) Építs „érvelő ellenőrt” a kritikus pontokra

Nem kell minden mondatot drága bíróval ellenőrizni. Célozd:

  • gyógyszerelés, dózis, interakció
  • vörös zászlós tünetek
  • diagnosztikai kritériumok (pl. score-ok)

5) Kényszerítsd a modellt strukturált válaszra

A szabad szöveg csábító, de veszélyes. Egészségügyben jobban működik:

  • „Állítás – bizonyíték – következtetés – bizonytalanság” struktúra
  • ellenőrizhető mezők (pl. javallat, ellenjavallat, forrásrészlet)

6) Tervezd bele a „biztonságos bukást” (safe failure)

Ha a rendszer nem biztos benne, legyen alapértelmezés:

  • „nem adok tanácsot, emberi felülvizsgálat kell”
  • vagy korlátozott válasz („csak általános tájékoztatás, nem terápiás javaslat”).

Ezt sokan UX-problémának tartják. Szerintem ez betegbiztonsági funkció.

Gyakori kérdések, amiket most érdemes feltenni a saját RAG-projektedben

„Elég, ha magas az embedding-hasonlóság a forráshoz?”

Nem. A tanulmány üzenete szerint pont a legveszélyesebb hibák tudnak magas hasonlóság mellett átcsúszni.

„Ha NLI AUC=0,81, akkor rendben vagyunk?”

Nem feltétlenül. Az AUC átlagos elkülöníthetőséget mér, de a klinikai kockázatot a szélső esetek adják.

„A megoldás az, hogy nagyobb modellt használjunk bírónak?”

Részben. A bíró-modell segíthet, de csak akkor, ha:

  • célzottan a kritikus állításokra futtatod,
  • van költség- és késleltetés-terved,
  • és auditálod, hogyan dönt.

Merre tovább: megbízhatóbb AI az egészségügyben

A „szemantikai illúzió” nekem egy nagyon praktikus figyelmeztetés: a hasonlóság nem egyenlő a helyességgel. Egészségügyi AI-nál ez különösen igaz, mert a döntő információ gyakran egyetlen szó (időtartam, dózis, „nem”, „kivéve”), miközben a mondat többi része hibátlan.

Ha RAG-alapú rendszert építesz diagnózistámogatásra, telemedicinára vagy klinikai tudáskeresésre, akkor a legjobb befektetés most nem egy újabb embedding-trükk, hanem egy olyan architektúra, ami:

  • valós hibákon kalibrált,
  • kritikus pontokon érvelő ellenőrzést használ,
  • és képes biztonságosan nemet mondani.

A következő év (2026) valószínűleg arról fog szólni az egészségügyi AI-ban, hogy ki tudja hitelesen bizonyítani: nem csak okos, hanem kiszámíthatóan biztonságos. Te a saját rendszerednél hol tudnál először mérni egy „szemantikai illúzió” típusú hibát?