Mesterséges intelligencia az egészségügyben•2025. december 22.•By 3L3C

Mellkasröntgen AI-ban a hallucináció a fő veszély. A CheXPO-v2 tudásgráf-alapú konzisztenciával teszi ellenőrizhetőbbé a modellek érvelését.

mellkasröntgenradiológiaVLMhallucinációtudásgráfdiagnózistámogatás

Featured image for Kevesebb hallucináció a mellkasröntgen AI-ban

Kevesebb hallucináció a mellkasröntgen AI-ban

A mellkasröntgen az egyik leggyakrabban kért képalkotó vizsgálat, mégis az egyik legkönnyebben félreérthető: a leletek nyelve tömör, tele van kizárásokkal („nem látható”), valószínűségekkel („felmerül”), és olyan összefüggésekkel, amiket a klinikai kontextus nélkül nehéz jól értelmezni. Ez az a terep, ahol a vizuális-nyelvi modellek (VLM-ek) látványosan hasznosak tudnak lenni – és ugyanilyen látványosan tudnak hibázni.

A legkellemetlenebb hiba a hallucináció: amikor a modell magabiztosan állít olyasmit, ami a képen vagy a betegadatokban nincs ott. A 2025 végén publikált CheXPO-v2 kutatás pont ezt a problémát célozza: nem „még több adatot” vagy „még nagyobb modellt” ígér, hanem jobb tanítást. Olyan tanítási visszajelzést, ami nemcsak azt nézi, hogy a végső válasz helyes-e, hanem azt is, hogy az odavezető gondolatmenet ellenőrizhető és konzisztens-e.

A „Mesterséges intelligencia az egészségügyben” sorozatban én ezt különösen fontos iránynak tartom: a klinikai környezetben nem elég „jó arányban eltalálni” a választ. A bizalom alapja a követhetőség – különösen radiológiában, ahol egy rossz, de jól hangzó magyarázat többet árthat, mint egy rövid „nem tudom”.

Miért hallucinál a radiológiai VLM, és miért baj, ha „szépen” indokol?

A kulcspont egyszerű: a legtöbb tanítási eljárás a végeredményt jutalmazza, nem a gondolkodás közbeni fegyelmet.

A cikk a radiológiai VLM-ek igazításánál (alignment) gyakran használt, költséghatékony megoldásra, a Group Relative Policy Optimization (GRPO) jellegű megerősítéses tanításra utal. Ezeknél jellemzően egy ritka, kimenetalapú jutalom érkezik: helyes-e a válasz, megfelel-e egy elvárt formátumnak, stb. Ilyenkor a modell könnyen „ráérez” arra, hogy a hosszú, részletesnek tűnő magyarázat sokszor segít átcsúszni a szűrőkön – még ha közben nem is ellenőrizhető.

Az „áttanult magabiztosság” klinikai kockázata

A valós kockázat nem az, hogy a modell néha téved. Hanem az, hogy:

koherensnek látszó, de téves okfejtést ad,
keveri az anatómiát („jobb” vs. „bal”, lebenyek),
összemossa a relációkat („nincs” vs. „kizárható” vs. „felmerül”),
és mindezt olyan stílusban, amit a felhasználó – főleg nagy terhelés mellett – könnyen készpénznek vesz.

A radiológiában ez különösen érzékeny, mert egy mellkasröntgen-lelet sokszor triázs döntéseket támogat (pl. sürgősség, izoláció, további képalkotás).

„A klinikai megbízhatóság nem ott kezdődik, hogy a modell okosnak hangzik, hanem ott, hogy a tévedései gyorsan leleplezhetők.”

CheXPO-v2: mi a trükk? A válasz helyett a folyamatot felügyeli

A CheXPO-v2 fő állítása: a hallucinációk egy része azért marad rejtve, mert csak a végső választ jutalmazzuk. Ehelyett a szerzők folyamatfelügyeletet (process supervision) javasolnak: a modell által leírt gondolatmenetet „atomokra” bontják, és ezeket ellenőrzik.

Tudásgráf-konzisztencia jutalom: „betegség–reláció–anatómia” hármasok

A módszer központi eleme a Knowledge Graph Consistency Reward, amelynek lényege, hogy a modell magyarázatából (reasoning) strukturált egységeket képez:

Betegség / eltérés (pl. pleurális folyadék, infiltrátum, pneumothorax)
Reláció (pl. jelen van, hiányzik, gyanú, lokalizáció)
Anatómia (pl. bal alsó lebeny, pleura, mediastinum)

Ezekből tripletek (hármasok) lesznek: „(eltérés, reláció, anatómia)”. A modell jutalmat kap, ha a hármasok összhangban vannak egy orvosi tudásreprezentációval (tudásgráffal), és büntetést, ha ellentmondásosak vagy „összevissza” kapcsolódnak.

A gyakorlati jelentőség: ha a modell azt írja, hogy „nincs pneumothorax”, majd később „a jobb oldali pneumothorax jelei…”, az már nem csak stílushiba, hanem formálisan is inkonzisztens – és ez visszajelzésként azonnal fáj neki tanulás közben.

Miért jobb ez, mint a sima pontosság-hajszolás?

Mert a klinikai munkában a hibák tipikusan lokálisak:

rossz oldal,
rossz anatómiai régió,
rossz reláció („felmerül” vs. „biztos”),
vagy túl erős következtetés egy gyenge jelből.

A tripletekre bontás ezekre a mikróhibákra ad célzott felügyeletet. Nem „a teljes választ” bünteti, hanem azt a konkrét állítást, ami félrement.

Adathatékonyság: miért nagy szám, hogy 5 000 mintával is SOTA?

A CheXPO-v2 egyik legjobban idézhető eredménye, hogy mindössze 5 000 mintával is képes új csúcsteljesítményt elérni a mellkasröntgen VQA (kép-alapú kérdés-válasz) feladatokban említett benchmarkon.

Ez nem csak ML-szempontból izgalmas. Egészségügyben az adat drága, és nem azért, mert a kórház „ül rajta”, hanem mert:

az annotáció szakértőt igényel,
a minőségbiztosítás időigényes,
az adatvédelmi és jogi megfelelés költséges,
és intézmények között nehéz standardizálni a címkézést.

Ha egy módszer tényleg jobban teljesít kevesebb, de okosabban felhasznált adaton, az közelebb visz a valós bevezethetőséghez – különösen kisebb régiós kórházakban vagy specialista-hiányos helyeken.

Hard-example mining: nem a könnyű kérdésektől tanul a legtöbbet

A szerzők a tudásgráf-jutalmat egy hard-example mining stratégiával kombinálják. Magyarul: a modellt nem hagyják „ellustulni” a triviális eseteken, hanem ráirányítják a fókuszt azokra a mintákra, ahol:

gyakori az ellentmondás,
a megkülönböztetés finom (pl. atelectasia vs. infiltrátum),
vagy a kérdés félreviheti a modellt.

A klinikai párhuzam kézenfekvő: a rezidens sem attól lesz jobb, hogy 200-szor felismeri a teljesen egyértelmű tüdőödémát, hanem attól, hogy megizzad a határeseteknél – és visszajelzést kap pont ott, ahol bizonytalan.

Mit jelent ez a kórházi gyakorlatban? 4 kézzelfogható felhasználás

A CheXPO-v2 nem egy „kész termék”, hanem egy tanítási keretrendszer, de a hatása nagyon konkrét irányokba mutat. Itt van négy olyan alkalmazás, ahol a konzisztens, ellenőrizhető érvelés azonnal értéket teremt.

1) Radiológiai döntéstámogatás: kevesebb „szép, de téves” magyarázat

A döntéstámogató rendszereknél én azt várom el, hogy:

röviden összefoglaljon,
jelölje a bizonytalanságot,
és ne gyártsa le a „mindent megmagyarázó” narratívát.

A tudásgráf-konzisztencia pont ebbe az irányba tol: a modell nem attól kap jutalmat, hogy sokat beszél, hanem attól, hogy összefüggően és ellenőrizhetően állít.

2) Leletminőség-ellenőrzés és standardizálás

Sok intézményben a leletezés stílusa radiológusonként eltér. Egy konzisztenciára tanított VLM alkalmas lehet arra, hogy:

kiszúrja az anatómiai ellentmondásokat,
jelezze a túl erős állításokat,
vagy összevesse a lelet szövegét a képi megfigyelésekkel.

Ez nem „automatizált aláírás”. Ez egy minőségbiztosítási második pár szem.

3) Triázs és munkalisták priorizálása (különösen télen)

2025 decemberében – és általában a téli időszakban – a légúti esetek terhelése tipikusan nő. Ilyenkor felértékelődik a gyors, de biztonságos triázs.

Egy jól igazított modell segíthet abban, hogy a mellkasröntgen-leletezés előtti szűrés:

kiemelje a sürgős mintázatokat (pl. pneumothorax gyanú),
és közben ne „ál-sürgősségeket” találjon ki.

A különbség itt élethelyzet: a hamis pozitív rontja a workflow-t, a hamis negatív veszélyeztet.

4) Oktatás: miért jó, ha a modell „tanulható módon” magyaráz?

A rezidensek képzésében szerintem az a jó AI, ami nem megmondja a választ, hanem:

strukturáltan összeköti az eltérést az anatómiai régióval,
és jelzi, ha a gondolatmenet ugrik.

A tripletes szemlélet itt didaktikailag is erős: „Mit látsz? Hol? Mit jelent?” – ez a radiológiai alap.

Gyakori kérdések: amit egy kórházi döntéshozó joggal kérdez

„A tudásgráf nem merev? Mi van az atípusos esetekkel?”

A tudásgráf akkor hasznos, ha minimális, klinikailag stabil szabályokat kódol: oldal, anatómia, tipikus relációk. Nem kell minden ritkaságot lefednie. Az atípusos eseteknél a cél nem az, hogy a modellt „ráerőltessük” a sémára, hanem hogy legalább ne mondjon önellentmondást.

„Nem lesz ettől túl konzervatív a modell?”

Lehet, ha rosszul súlyozzák a jutalmat. De klinikailag én inkább egy kicsit konzervatív modellt választok, amely:

jelzi a bizonytalanságot,
és kér további vizsgálatot,

minthogy magabiztosan tévedjen.

„Mitől lesz ez valóban bevezethető?”

A bevezethetőség nem a pontosságnál kezdődik, hanem a folyamatnál:

lokális validáció (intézményi adat, protokollok),
monitorozás (hallucinációk, drift, hibaminták),
felhasználói UI (mikor, hogyan jelenik meg a magyarázat),
felelősségi keretek (ki dönt, ki hagy jóvá).

A CheXPO-v2 abban segít, hogy a 2-es pont (hibaminták) mérhetőbbé váljon, mert a hibák tripletszinten diagnosztizálhatók.

Mit érdemes most lépni, ha AI-t tervezel radiológiában?

Ha kórházban, diagnosztikai központban vagy egészségügyi szoftverfejlesztésben dolgozol, én ezt a három lépést javaslom 2026 elejére:

Definiáljátok a „nem elfogadható hibát”: oldalcsere, nem létező eltérés, túl erős kijelentés. Ezt később jutalmazni/büntetni tudjátok.
Válasszatok strukturált ellenőrzési egységet: tripletek, címkék, vagy legalább anatómia–eltérés párok. A szöveg önmagában túl csúszós.
Kérjétek számon a konzisztenciát a beszállítókon: ne csak AUC/accuracy legyen a slide-on, hanem inkonzisztencia-ráta, hallucinációs hibatípusok, és példák.

A „Mesterséges intelligencia az egészségügyben” sorozatban újra és újra ugyanoda jutunk: a diagnosztikában az AI értéke nem az, hogy tud beszélni a képekről, hanem az, hogy biztonságosan tud velük bánni. A CheXPO-v2 iránya nekem azt üzeni, hogy a következő évek nyertesei azok a megoldások lesznek, amelyek a magyarázatot nem díszítésnek tekintik, hanem ellenőrizhető „szerződésnek” a klinikus és a rendszer között.

Te mit preferálnál a saját intézményedben: egy modellt, ami ritkán téved, de nem tudja megindokolni – vagy egyet, ami vállalja a gondolatmenetét, és ezért könnyebb auditálni?