Mesterséges intelligencia az egészségügyben•2025. december 22.•By 3L3C

A RAG rendszerek hallucinációit az embedding-alapú detektorok gyakran nem szűrik ki. Mutatjuk, mit jelent ez az egészségügyi AI-ban.

RAGhallucináció detektálásbetegbiztonságkonform predikcióLLM validációklinikai döntéstámogatás

Featured image for Szemantikai illúzió: miért tévedhet a RAG az egészségügyben?

Szemantikai illúzió: miért tévedhet a RAG az egészségügyben?

Egy jól beállított RAG (Retrieval-Augmented Generation) rendszernek elvileg „könnyű dolga” van: visszakeresi a releváns dokumentumokat, majd ezekre támaszkodva válaszol. A gond ott kezdődik, amikor a rendszer látszólag ugyanazt mondja, mint a forrás, mégis hibás következtetésre jut – és ezt a hibát a ma népszerű, embedding-alapú hallucinációdetektálás sokszor nem tudja kiszúrni.

A 2025.12.22-én publikált kutatás (Debu Sinha) erre hoz egy kellemetlenül tiszta üzenetet: bizonyos valódi hallucinációk „szemantikailag indistinguishable” módon közel vannak a helyes válaszokhoz, így az embedding-hasonlóságra építő kontrollok a gyakorlatban összeomolhatnak. Ez az úgynevezett „szemantikai illúzió”.

Az „Mesterséges intelligencia az egészségügyben” sorozatban ez azért kritikus, mert a RAG-et ma már diagnózistámogatásban, klinikai protokollok összefoglalásában, betegút-tájékoztatásban és kórházi tudásbázisoknál is bevetik. Ha a hallucinációt nem a modell generálja, hanem a validáció engedi át, abból könnyen lesz betegbiztonsági kockázat.

Mit állít a kutatás, és miért számít ez a klinikumban?

A lényeg egy mondatban: az embedding-alapú hallucinációdetektálás képes szép eredményeket hozni „mesterségesen könnyű” teszteken, de elbukhat valós, RLHF-finomhangolt modellek által produkált hallucinációknál.

A tanulmány két adathalmazon mutatja be a különbséget:

Szintetikus hallucinációk esetén (Natural Questions jellegű beállítás): a detektorok elértek 95% lefedettséget (coverage) 0% téves riasztás (FPR) mellett.
Valódi hallucinációk esetén (HaluEval, RLHF-alapú modellek): ugyanaz a megközelítés katastrofálisan csődöt mond, és a célzott lefedettség eléréséhez 100% FPR jön ki – vagyis gyakorlatilag mindent hibásnak jelöl.

Ez egészségügyben két okból fáj különösen:

A túl sok téves riasztás (100% FPR) a workflow-t megöli: a klinikusok hamar „kikapcsolják fejben” a rendszert.
A túl kevés riasztás még rosszabb: ha a rendszer átenged egy meggyőző, de hibás választ, az félreviheti a döntést.

A „szemantikai illúzió” röviden: amikor a jelentés túl hasonló

A kutatás frappáns diagnózisa: a legveszélyesebb hallucinációk nem ordítanak a felszínen. Nem arról van szó, hogy a modell teljesen irreleváns dolgot mond, hanem arról, hogy:

a szöveg stílusa, fogalmazása, szakmai hangneme hiteles,
kulcsszavakban, terminológiában egybeesik a forrásokkal,
mégis egy apró logikai ugrás, téves összekötés vagy „kicsit máshogy értelmezett” állítás miatt hibás.

A szemantikai illúzió lényege: a válasz „elég közel van” a forráshoz ahhoz, hogy embedding-szinten jónak tűnjön, de érvelésben már nem stimmel.

Egészségügyi példával ez gyakran így néz ki:

A modell korrektül idézi, hogy egy gyógyszer adott indikációban alkalmazható.
Majd hozzáteszi: „ezért” egy másik, hasonló állapotban is első vonal.
Az embedding-hasonlóság magas (ugyanazok a fogalmak), az állítás mégis klinikailag hibás.

Mi az a konform predikció, és miért lett ez a kutatás kulcsa?

A tanulmány egyik erős pontja, hogy nem csak „AUC-t” vagy pontosságot mutogat, hanem konform predikcióval (conformal prediction) a detektorok kimenetét garantált lefedettségű döntéshalmazzá alakítja.

Gyakorlatiasan:

A klasszikus detektor ad egy pontszámot: „valószínűleg hallucináció”.
A konform predikció ezt úgy kalibrálja egy kalibrációs készleten (itt n=600), hogy meg lehessen mondani: 1−α valószínűséggel (pl. 95%) a döntésed „tartja a lefedettséget”.

A klinikai környezetben ez csábító, mert a vezetők és megfelelőségi csapatok szeretik a mondatot: „95%-os garancia”.

A kutatás viszont megmutatja a csapdát: ha a legnehezebb esetek a eloszlás farkában vannak (distributional tails), akkor a 95% coverage kényszerítése olyan küszöböt eredményezhet, amely tömegesen elutasít jó válaszokat – ez lett a 100% FPR-es összeomlás.

Miért működik jól a szintetikus teszten, és miért bukik a valóságban?

A válasz nyers és őszinte: mert más jellegű a hiba.

Szintetikus hallucináció: könnyű célpont

Szintetikus beállításban a „hibás” válaszok gyakran:

hiányzó hivatkozásra épülnek,
nyilvánvalóan nem támaszthatók alá a forrásból,
szókincsben és szerkezetben is távolabb esnek.

Itt az embedding-hasonlóság (vagy egy egyszerű NLI-s „entailment” jel) tényleg tud különbséget tenni.

Valós hallucináció: a modell már „jól hazudik”

RLHF-finomhangolás után a modellek tipikusan:

óvatosabban fogalmaznak,
kerülik a nagyon vad állításokat,
olyan módon „konfabulálnak”, hogy a szöveg koherens és szakmai.

A kutatás szerint ezeknél a „legkeményebb” hallucinációknál a faithful és unfaithful válaszok szemantikailag annyira közel kerülnek, hogy a felszíni hasonlóságon alapuló módszerek (embedding) nem találnak kapaszkodót.

NLI vs. embedding vs. „bíró modell”: mit érdemes tudni a számokról?

A cikk nem állítja, hogy minden automatikus ellenőrzés reménytelen. Például:

NLI (Natural Language Inference) modell 0,81 AUC körüli teljesítményt elérhet – vagyis rangsorolásban „egész oké”.

De a kritikus üzenet: a megfelelőségi küszöbölésnél nem az átlag számít, hanem a legrosszabb eset. Az egészségügyben pontosan ezek a szélsőségek okozzák a bajt.

A kutatás egyik legerősebb állítása, hogy egy „reasoning” jellegű bíró (GPT-4 mint judge) a vizsgált beállításban 7% FPR-t ért el (95% CI: [3,4%, 13,7%]). Ez két dolgot bizonyít:

A feladat megoldható (nem „filozófiai probléma”).
A megoldás kulcsa nem a felszíni szemantika, hanem az érvelés és bizonyíték-lánc ellenőrzése.

Mit jelent ez a RAG-alapú egészségügyi alkalmazások tervezésében?

A központi tanulság: ne tekintsd a magas embedding-hasonlóságot betegbiztonsági garanciának. Ha RAG-et használsz klinikai szövegek összefoglalására vagy döntéstámogatásra, akkor az „egy dokumentum közel van” típusú ellenőrzés önmagában kevés.

1) A detektálás helyett a „bizonyíték-kényszer” a barátod

A megbízhatóságot gyakran nem utólagos detektorral, hanem kimeneti fegyelemmel lehet jobban növelni:

Kötelező idézési egységek (mondatonként vagy állításonként forrásrészlet)
Állítás–bizonyíték párosítás: minden klinikai állításhoz legyen visszakeresett bekezdés
„Nem tudom” engedélyezése: ha nincs evidence, a rendszer ne találgasson

Ez nem látványos, viszont működik.

2) A konform predikciót tedd „üzemeltethetővé”

A konform predikció akkor hasznos, ha a kalibráció:

frissül (idővel drift van),
megfelel a célkörnyezetnek (kórházi dokumentumok, magyar nyelv, helyi protokollok),
és külön méred a „tail” eseteket.

Praktikus üzemeltetési minta egészségügyben:

Külön kalibrációs halmaz sürgősségi, belgyógyászati, onkológiai kérdésekre.
Külön küszöbök high-risk témákra (antikoagulánsok, inzulin, gyógyszer-interakciók).
Folyamatos visszamérés a klinikus feedback alapján.

3) A „bíró modell” nem luxus, hanem kontrollpont

Sokan reflexből azt mondják: „bíró LLM túl drága”. Én ezt a kérdést úgy fordítanám meg: mennyi az ára egy rossz javaslatnak?

A bíró modell szerepe lehet:

csak a kockázatos válaszok auditálása,
csak akkor fut, ha az evidence gyenge,
vagy akkor, ha a válasz gyógyszerelést, dózist, kontraindikációt érint.

A cél nem az, hogy mindenre GPT-4 döntsön, hanem hogy a rendszernek legyen érvelés-alapú „második véleménye”.

Gyors ellenőrzőlista: mire kérdezz rá, ha RAG-et vezetsz be kórházban?

Az alábbi kérdések meglepően gyorsan kiszűrik a „szép demo, rossz valóság” projekteket:

Milyen hallucinációk vannak a saját adataitokon? (nem publikus benchmarkon)
Mekkora a téves riasztás arány a pilotban? (FPR külön high-risk témákra)
Van-e bizonyíték-kényszer kimeneti formátum? (állítás–forrás párok)
Mi történik bizonytalanságnál? (fallback: ember, guideline, „nem tudom”)
Van-e drift monitoring és újrakalibráció? (havi/negyedéves ritmus)

Ha ezekre nincs válasz, akkor valószínűleg nem detektorhiányod van, hanem rendszertervezési hiányod.

A sorozat tágabb képe: megbízhatóság nélkül nincs klinikai skálázás

Az „Mesterséges intelligencia az egészségügyben” témában hajlamosak vagyunk a látványos részekre figyelni: jobb képalkotó triázs, gyorsabb adminisztráció, okos chatbotok. De a skálázás igazi akadálya sokszor prózai: tudjuk-e mérni és kontrollálni a tévedést?

A „szemantikai illúzió” kutatás szerint a válasz ma így hangzik: embedding-hasonlósággal nem elég jól. A megbízható irány inkább ez: bizonyíték-kényszer + kockázat-alapú bíró + konform kalibráció a valós eloszlásra.

Ha te is egészségügyi RAG rendszeren dolgozol, én a következő lépést javaslom: válassz ki 50–100 valódi, éles kérdést (magyar nyelven, saját protokollokkal), és mérd le külön a „legnehezebb” eseteket. A meglepetések ott vannak.

A kérdés a végére nem az, hogy „képes-e a modell válaszolni”. Hanem az, hogy melyik ponton merjük azt mondani: ezt a választ már klinikai döntés közelébe engedjük?