Mellkasröntgen AI-ban a hallucináció a fő veszély. A CheXPO-v2 tudásgráf-alapú konzisztenciával teszi ellenőrizhetőbbé a modellek érvelését.

Kevesebb hallucináció a mellkasröntgen AI-ban
A mellkasröntgen az egyik leggyakrabban kért képalkotó vizsgálat, mégis az egyik legkönnyebben félreérthető: a leletek nyelve tömör, tele van kizárásokkal („nem látható”), valószínűségekkel („felmerül”), és olyan összefüggésekkel, amiket a klinikai kontextus nélkül nehéz jól értelmezni. Ez az a terep, ahol a vizuális-nyelvi modellek (VLM-ek) látványosan hasznosak tudnak lenni – és ugyanilyen látványosan tudnak hibázni.
A legkellemetlenebb hiba a hallucináció: amikor a modell magabiztosan állít olyasmit, ami a képen vagy a betegadatokban nincs ott. A 2025 végén publikált CheXPO-v2 kutatás pont ezt a problémát célozza: nem „még több adatot” vagy „még nagyobb modellt” ígér, hanem jobb tanítást. Olyan tanítási visszajelzést, ami nemcsak azt nézi, hogy a végső válasz helyes-e, hanem azt is, hogy az odavezető gondolatmenet ellenőrizhető és konzisztens-e.
A „Mesterséges intelligencia az egészségügyben” sorozatban én ezt különösen fontos iránynak tartom: a klinikai környezetben nem elég „jó arányban eltalálni” a választ. A bizalom alapja a követhetőség – különösen radiológiában, ahol egy rossz, de jól hangzó magyarázat többet árthat, mint egy rövid „nem tudom”.
Miért hallucinál a radiológiai VLM, és miért baj, ha „szépen” indokol?
A kulcspont egyszerű: a legtöbb tanítási eljárás a végeredményt jutalmazza, nem a gondolkodás közbeni fegyelmet.
A cikk a radiológiai VLM-ek igazításánál (alignment) gyakran használt, költséghatékony megoldásra, a Group Relative Policy Optimization (GRPO) jellegű megerősítéses tanításra utal. Ezeknél jellemzően egy ritka, kimenetalapú jutalom érkezik: helyes-e a válasz, megfelel-e egy elvárt formátumnak, stb. Ilyenkor a modell könnyen „ráérez” arra, hogy a hosszú, részletesnek tűnő magyarázat sokszor segít átcsúszni a szűrőkön – még ha közben nem is ellenőrizhető.
Az „áttanult magabiztosság” klinikai kockázata
A valós kockázat nem az, hogy a modell néha téved. Hanem az, hogy:
- koherensnek látszó, de téves okfejtést ad,
- keveri az anatómiát („jobb” vs. „bal”, lebenyek),
- összemossa a relációkat („nincs” vs. „kizárható” vs. „felmerül”),
- és mindezt olyan stílusban, amit a felhasználó – főleg nagy terhelés mellett – könnyen készpénznek vesz.
A radiológiában ez különösen érzékeny, mert egy mellkasröntgen-lelet sokszor triázs döntéseket támogat (pl. sürgősség, izoláció, további képalkotás).
„A klinikai megbízhatóság nem ott kezdődik, hogy a modell okosnak hangzik, hanem ott, hogy a tévedései gyorsan leleplezhetők.”
CheXPO-v2: mi a trükk? A válasz helyett a folyamatot felügyeli
A CheXPO-v2 fő állítása: a hallucinációk egy része azért marad rejtve, mert csak a végső választ jutalmazzuk. Ehelyett a szerzők folyamatfelügyeletet (process supervision) javasolnak: a modell által leírt gondolatmenetet „atomokra” bontják, és ezeket ellenőrzik.
Tudásgráf-konzisztencia jutalom: „betegség–reláció–anatómia” hármasok
A módszer központi eleme a Knowledge Graph Consistency Reward, amelynek lényege, hogy a modell magyarázatából (reasoning) strukturált egységeket képez:
- Betegség / eltérés (pl. pleurális folyadék, infiltrátum, pneumothorax)
- Reláció (pl. jelen van, hiányzik, gyanú, lokalizáció)
- Anatómia (pl. bal alsó lebeny, pleura, mediastinum)
Ezekből tripletek (hármasok) lesznek: „(eltérés, reláció, anatómia)”. A modell jutalmat kap, ha a hármasok összhangban vannak egy orvosi tudásreprezentációval (tudásgráffal), és büntetést, ha ellentmondásosak vagy „összevissza” kapcsolódnak.
A gyakorlati jelentőség: ha a modell azt írja, hogy „nincs pneumothorax”, majd később „a jobb oldali pneumothorax jelei…”, az már nem csak stílushiba, hanem formálisan is inkonzisztens – és ez visszajelzésként azonnal fáj neki tanulás közben.
Miért jobb ez, mint a sima pontosság-hajszolás?
Mert a klinikai munkában a hibák tipikusan lokálisak:
- rossz oldal,
- rossz anatómiai régió,
- rossz reláció („felmerül” vs. „biztos”),
- vagy túl erős következtetés egy gyenge jelből.
A tripletekre bontás ezekre a mikróhibákra ad célzott felügyeletet. Nem „a teljes választ” bünteti, hanem azt a konkrét állítást, ami félrement.
Adathatékonyság: miért nagy szám, hogy 5 000 mintával is SOTA?
A CheXPO-v2 egyik legjobban idézhető eredménye, hogy mindössze 5 000 mintával is képes új csúcsteljesítményt elérni a mellkasröntgen VQA (kép-alapú kérdés-válasz) feladatokban említett benchmarkon.
Ez nem csak ML-szempontból izgalmas. Egészségügyben az adat drága, és nem azért, mert a kórház „ül rajta”, hanem mert:
- az annotáció szakértőt igényel,
- a minőségbiztosítás időigényes,
- az adatvédelmi és jogi megfelelés költséges,
- és intézmények között nehéz standardizálni a címkézést.
Ha egy módszer tényleg jobban teljesít kevesebb, de okosabban felhasznált adaton, az közelebb visz a valós bevezethetőséghez – különösen kisebb régiós kórházakban vagy specialista-hiányos helyeken.
Hard-example mining: nem a könnyű kérdésektől tanul a legtöbbet
A szerzők a tudásgráf-jutalmat egy hard-example mining stratégiával kombinálják. Magyarul: a modellt nem hagyják „ellustulni” a triviális eseteken, hanem ráirányítják a fókuszt azokra a mintákra, ahol:
- gyakori az ellentmondás,
- a megkülönböztetés finom (pl. atelectasia vs. infiltrátum),
- vagy a kérdés félreviheti a modellt.
A klinikai párhuzam kézenfekvő: a rezidens sem attól lesz jobb, hogy 200-szor felismeri a teljesen egyértelmű tüdőödémát, hanem attól, hogy megizzad a határeseteknél – és visszajelzést kap pont ott, ahol bizonytalan.
Mit jelent ez a kórházi gyakorlatban? 4 kézzelfogható felhasználás
A CheXPO-v2 nem egy „kész termék”, hanem egy tanítási keretrendszer, de a hatása nagyon konkrét irányokba mutat. Itt van négy olyan alkalmazás, ahol a konzisztens, ellenőrizhető érvelés azonnal értéket teremt.
1) Radiológiai döntéstámogatás: kevesebb „szép, de téves” magyarázat
A döntéstámogató rendszereknél én azt várom el, hogy:
- röviden összefoglaljon,
- jelölje a bizonytalanságot,
- és ne gyártsa le a „mindent megmagyarázó” narratívát.
A tudásgráf-konzisztencia pont ebbe az irányba tol: a modell nem attól kap jutalmat, hogy sokat beszél, hanem attól, hogy összefüggően és ellenőrizhetően állít.
2) Leletminőség-ellenőrzés és standardizálás
Sok intézményben a leletezés stílusa radiológusonként eltér. Egy konzisztenciára tanított VLM alkalmas lehet arra, hogy:
- kiszúrja az anatómiai ellentmondásokat,
- jelezze a túl erős állításokat,
- vagy összevesse a lelet szövegét a képi megfigyelésekkel.
Ez nem „automatizált aláírás”. Ez egy minőségbiztosítási második pár szem.
3) Triázs és munkalisták priorizálása (különösen télen)
2025 decemberében – és általában a téli időszakban – a légúti esetek terhelése tipikusan nő. Ilyenkor felértékelődik a gyors, de biztonságos triázs.
Egy jól igazított modell segíthet abban, hogy a mellkasröntgen-leletezés előtti szűrés:
- kiemelje a sürgős mintázatokat (pl. pneumothorax gyanú),
- és közben ne „ál-sürgősségeket” találjon ki.
A különbség itt élethelyzet: a hamis pozitív rontja a workflow-t, a hamis negatív veszélyeztet.
4) Oktatás: miért jó, ha a modell „tanulható módon” magyaráz?
A rezidensek képzésében szerintem az a jó AI, ami nem megmondja a választ, hanem:
- strukturáltan összeköti az eltérést az anatómiai régióval,
- és jelzi, ha a gondolatmenet ugrik.
A tripletes szemlélet itt didaktikailag is erős: „Mit látsz? Hol? Mit jelent?” – ez a radiológiai alap.
Gyakori kérdések: amit egy kórházi döntéshozó joggal kérdez
„A tudásgráf nem merev? Mi van az atípusos esetekkel?”
A tudásgráf akkor hasznos, ha minimális, klinikailag stabil szabályokat kódol: oldal, anatómia, tipikus relációk. Nem kell minden ritkaságot lefednie. Az atípusos eseteknél a cél nem az, hogy a modellt „ráerőltessük” a sémára, hanem hogy legalább ne mondjon önellentmondást.
„Nem lesz ettől túl konzervatív a modell?”
Lehet, ha rosszul súlyozzák a jutalmat. De klinikailag én inkább egy kicsit konzervatív modellt választok, amely:
- jelzi a bizonytalanságot,
- és kér további vizsgálatot,
minthogy magabiztosan tévedjen.
„Mitől lesz ez valóban bevezethető?”
A bevezethetőség nem a pontosságnál kezdődik, hanem a folyamatnál:
- lokális validáció (intézményi adat, protokollok),
- monitorozás (hallucinációk, drift, hibaminták),
- felhasználói UI (mikor, hogyan jelenik meg a magyarázat),
- felelősségi keretek (ki dönt, ki hagy jóvá).
A CheXPO-v2 abban segít, hogy a 2-es pont (hibaminták) mérhetőbbé váljon, mert a hibák tripletszinten diagnosztizálhatók.
Mit érdemes most lépni, ha AI-t tervezel radiológiában?
Ha kórházban, diagnosztikai központban vagy egészségügyi szoftverfejlesztésben dolgozol, én ezt a három lépést javaslom 2026 elejére:
- Definiáljátok a „nem elfogadható hibát”: oldalcsere, nem létező eltérés, túl erős kijelentés. Ezt később jutalmazni/büntetni tudjátok.
- Válasszatok strukturált ellenőrzési egységet: tripletek, címkék, vagy legalább anatómia–eltérés párok. A szöveg önmagában túl csúszós.
- Kérjétek számon a konzisztenciát a beszállítókon: ne csak AUC/accuracy legyen a slide-on, hanem inkonzisztencia-ráta, hallucinációs hibatípusok, és példák.
A „Mesterséges intelligencia az egészségügyben” sorozatban újra és újra ugyanoda jutunk: a diagnosztikában az AI értéke nem az, hogy tud beszélni a képekről, hanem az, hogy biztonságosan tud velük bánni. A CheXPO-v2 iránya nekem azt üzeni, hogy a következő évek nyertesei azok a megoldások lesznek, amelyek a magyarázatot nem díszítésnek tekintik, hanem ellenőrizhető „szerződésnek” a klinikus és a rendszer között.
Te mit preferálnál a saját intézményedben: egy modellt, ami ritkán téved, de nem tudja megindokolni – vagy egyet, ami vállalja a gondolatmenetét, és ezért könnyebb auditálni?