A RAG rendszerek hallucinációit az embedding-alapú detektorok gyakran nem szűrik ki. Mutatjuk, mit jelent ez az egészségügyi AI-ban.

Szemantikai illúzió: miért tévedhet a RAG az egészségügyben?
Egy jól beállított RAG (Retrieval-Augmented Generation) rendszernek elvileg „könnyű dolga” van: visszakeresi a releváns dokumentumokat, majd ezekre támaszkodva válaszol. A gond ott kezdődik, amikor a rendszer látszólag ugyanazt mondja, mint a forrás, mégis hibás következtetésre jut – és ezt a hibát a ma népszerű, embedding-alapú hallucinációdetektálás sokszor nem tudja kiszúrni.
A 2025.12.22-én publikált kutatás (Debu Sinha) erre hoz egy kellemetlenül tiszta üzenetet: bizonyos valódi hallucinációk „szemantikailag indistinguishable” módon közel vannak a helyes válaszokhoz, így az embedding-hasonlóságra építő kontrollok a gyakorlatban összeomolhatnak. Ez az úgynevezett „szemantikai illúzió”.
Az „Mesterséges intelligencia az egészségügyben” sorozatban ez azért kritikus, mert a RAG-et ma már diagnózistámogatásban, klinikai protokollok összefoglalásában, betegút-tájékoztatásban és kórházi tudásbázisoknál is bevetik. Ha a hallucinációt nem a modell generálja, hanem a validáció engedi át, abból könnyen lesz betegbiztonsági kockázat.
Mit állít a kutatás, és miért számít ez a klinikumban?
A lényeg egy mondatban: az embedding-alapú hallucinációdetektálás képes szép eredményeket hozni „mesterségesen könnyű” teszteken, de elbukhat valós, RLHF-finomhangolt modellek által produkált hallucinációknál.
A tanulmány két adathalmazon mutatja be a különbséget:
- Szintetikus hallucinációk esetén (Natural Questions jellegű beállítás): a detektorok elértek 95% lefedettséget (coverage) 0% téves riasztás (FPR) mellett.
- Valódi hallucinációk esetén (HaluEval, RLHF-alapú modellek): ugyanaz a megközelítés katastrofálisan csődöt mond, és a célzott lefedettség eléréséhez 100% FPR jön ki – vagyis gyakorlatilag mindent hibásnak jelöl.
Ez egészségügyben két okból fáj különösen:
- A túl sok téves riasztás (100% FPR) a workflow-t megöli: a klinikusok hamar „kikapcsolják fejben” a rendszert.
- A túl kevés riasztás még rosszabb: ha a rendszer átenged egy meggyőző, de hibás választ, az félreviheti a döntést.
A „szemantikai illúzió” röviden: amikor a jelentés túl hasonló
A kutatás frappáns diagnózisa: a legveszélyesebb hallucinációk nem ordítanak a felszínen. Nem arról van szó, hogy a modell teljesen irreleváns dolgot mond, hanem arról, hogy:
- a szöveg stílusa, fogalmazása, szakmai hangneme hiteles,
- kulcsszavakban, terminológiában egybeesik a forrásokkal,
- mégis egy apró logikai ugrás, téves összekötés vagy „kicsit máshogy értelmezett” állítás miatt hibás.
A szemantikai illúzió lényege: a válasz „elég közel van” a forráshoz ahhoz, hogy embedding-szinten jónak tűnjön, de érvelésben már nem stimmel.
Egészségügyi példával ez gyakran így néz ki:
- A modell korrektül idézi, hogy egy gyógyszer adott indikációban alkalmazható.
- Majd hozzáteszi: „ezért” egy másik, hasonló állapotban is első vonal.
- Az embedding-hasonlóság magas (ugyanazok a fogalmak), az állítás mégis klinikailag hibás.
Mi az a konform predikció, és miért lett ez a kutatás kulcsa?
A tanulmány egyik erős pontja, hogy nem csak „AUC-t” vagy pontosságot mutogat, hanem konform predikcióval (conformal prediction) a detektorok kimenetét garantált lefedettségű döntéshalmazzá alakítja.
Gyakorlatiasan:
- A klasszikus detektor ad egy pontszámot: „valószínűleg hallucináció”.
- A konform predikció ezt úgy kalibrálja egy kalibrációs készleten (itt n=600), hogy meg lehessen mondani: 1−α valószínűséggel (pl. 95%) a döntésed „tartja a lefedettséget”.
A klinikai környezetben ez csábító, mert a vezetők és megfelelőségi csapatok szeretik a mondatot: „95%-os garancia”.
A kutatás viszont megmutatja a csapdát: ha a legnehezebb esetek a eloszlás farkában vannak (distributional tails), akkor a 95% coverage kényszerítése olyan küszöböt eredményezhet, amely tömegesen elutasít jó válaszokat – ez lett a 100% FPR-es összeomlás.
Miért működik jól a szintetikus teszten, és miért bukik a valóságban?
A válasz nyers és őszinte: mert más jellegű a hiba.
Szintetikus hallucináció: könnyű célpont
Szintetikus beállításban a „hibás” válaszok gyakran:
- hiányzó hivatkozásra épülnek,
- nyilvánvalóan nem támaszthatók alá a forrásból,
- szókincsben és szerkezetben is távolabb esnek.
Itt az embedding-hasonlóság (vagy egy egyszerű NLI-s „entailment” jel) tényleg tud különbséget tenni.
Valós hallucináció: a modell már „jól hazudik”
RLHF-finomhangolás után a modellek tipikusan:
- óvatosabban fogalmaznak,
- kerülik a nagyon vad állításokat,
- olyan módon „konfabulálnak”, hogy a szöveg koherens és szakmai.
A kutatás szerint ezeknél a „legkeményebb” hallucinációknál a faithful és unfaithful válaszok szemantikailag annyira közel kerülnek, hogy a felszíni hasonlóságon alapuló módszerek (embedding) nem találnak kapaszkodót.
NLI vs. embedding vs. „bíró modell”: mit érdemes tudni a számokról?
A cikk nem állítja, hogy minden automatikus ellenőrzés reménytelen. Például:
- NLI (Natural Language Inference) modell 0,81 AUC körüli teljesítményt elérhet – vagyis rangsorolásban „egész oké”.
De a kritikus üzenet: a megfelelőségi küszöbölésnél nem az átlag számít, hanem a legrosszabb eset. Az egészségügyben pontosan ezek a szélsőségek okozzák a bajt.
A kutatás egyik legerősebb állítása, hogy egy „reasoning” jellegű bíró (GPT-4 mint judge) a vizsgált beállításban 7% FPR-t ért el (95% CI: [3,4%, 13,7%]). Ez két dolgot bizonyít:
- A feladat megoldható (nem „filozófiai probléma”).
- A megoldás kulcsa nem a felszíni szemantika, hanem az érvelés és bizonyíték-lánc ellenőrzése.
Mit jelent ez a RAG-alapú egészségügyi alkalmazások tervezésében?
A központi tanulság: ne tekintsd a magas embedding-hasonlóságot betegbiztonsági garanciának. Ha RAG-et használsz klinikai szövegek összefoglalására vagy döntéstámogatásra, akkor az „egy dokumentum közel van” típusú ellenőrzés önmagában kevés.
1) A detektálás helyett a „bizonyíték-kényszer” a barátod
A megbízhatóságot gyakran nem utólagos detektorral, hanem kimeneti fegyelemmel lehet jobban növelni:
- Kötelező idézési egységek (mondatonként vagy állításonként forrásrészlet)
- Állítás–bizonyíték párosítás: minden klinikai állításhoz legyen visszakeresett bekezdés
- „Nem tudom” engedélyezése: ha nincs evidence, a rendszer ne találgasson
Ez nem látványos, viszont működik.
2) A konform predikciót tedd „üzemeltethetővé”
A konform predikció akkor hasznos, ha a kalibráció:
- frissül (idővel drift van),
- megfelel a célkörnyezetnek (kórházi dokumentumok, magyar nyelv, helyi protokollok),
- és külön méred a „tail” eseteket.
Praktikus üzemeltetési minta egészségügyben:
- Külön kalibrációs halmaz sürgősségi, belgyógyászati, onkológiai kérdésekre.
- Külön küszöbök high-risk témákra (antikoagulánsok, inzulin, gyógyszer-interakciók).
- Folyamatos visszamérés a klinikus feedback alapján.
3) A „bíró modell” nem luxus, hanem kontrollpont
Sokan reflexből azt mondják: „bíró LLM túl drága”. Én ezt a kérdést úgy fordítanám meg: mennyi az ára egy rossz javaslatnak?
A bíró modell szerepe lehet:
- csak a kockázatos válaszok auditálása,
- csak akkor fut, ha az evidence gyenge,
- vagy akkor, ha a válasz gyógyszerelést, dózist, kontraindikációt érint.
A cél nem az, hogy mindenre GPT-4 döntsön, hanem hogy a rendszernek legyen érvelés-alapú „második véleménye”.
Gyors ellenőrzőlista: mire kérdezz rá, ha RAG-et vezetsz be kórházban?
Az alábbi kérdések meglepően gyorsan kiszűrik a „szép demo, rossz valóság” projekteket:
- Milyen hallucinációk vannak a saját adataitokon? (nem publikus benchmarkon)
- Mekkora a téves riasztás arány a pilotban? (FPR külön high-risk témákra)
- Van-e bizonyíték-kényszer kimeneti formátum? (állítás–forrás párok)
- Mi történik bizonytalanságnál? (fallback: ember, guideline, „nem tudom”)
- Van-e drift monitoring és újrakalibráció? (havi/negyedéves ritmus)
Ha ezekre nincs válasz, akkor valószínűleg nem detektorhiányod van, hanem rendszertervezési hiányod.
A sorozat tágabb képe: megbízhatóság nélkül nincs klinikai skálázás
Az „Mesterséges intelligencia az egészségügyben” témában hajlamosak vagyunk a látványos részekre figyelni: jobb képalkotó triázs, gyorsabb adminisztráció, okos chatbotok. De a skálázás igazi akadálya sokszor prózai: tudjuk-e mérni és kontrollálni a tévedést?
A „szemantikai illúzió” kutatás szerint a válasz ma így hangzik: embedding-hasonlósággal nem elég jól. A megbízható irány inkább ez: bizonyíték-kényszer + kockázat-alapú bíró + konform kalibráció a valós eloszlásra.
Ha te is egészségügyi RAG rendszeren dolgozol, én a következő lépést javaslom: válassz ki 50–100 valódi, éles kérdést (magyar nyelven, saját protokollokkal), és mérd le külön a „legnehezebb” eseteket. A meglepetések ott vannak.
A kérdés a végére nem az, hogy „képes-e a modell válaszolni”. Hanem az, hogy melyik ponton merjük azt mondani: ezt a választ már klinikai döntés közelébe engedjük?