Mellkasröntgen AI-ban a hallucináció a fő veszély. A CheXPO-v2 tudásgráf-alapú konzisztenciával teszi ellenőrizhetőbbé a modellek érvelését.

Kevesebb hallucináció a mellkasröntgen AI-ban
A mellkasröntgen az egyik leggyakrabban kĂ©rt kĂ©palkotĂł vizsgálat, mĂ©gis az egyik legkönnyebben fĂ©lreĂ©rthetĹ‘: a leletek nyelve tömör, tele van kizárásokkal („nem látható”), valĂłszĂnűsĂ©gekkel („felmerĂĽl”), Ă©s olyan összefĂĽggĂ©sekkel, amiket a klinikai kontextus nĂ©lkĂĽl nehĂ©z jĂłl Ă©rtelmezni. Ez az a terep, ahol a vizuális-nyelvi modellek (VLM-ek) látványosan hasznosak tudnak lenni – Ă©s ugyanilyen látványosan tudnak hibázni.
A legkellemetlenebb hiba a hallucináciĂł: amikor a modell magabiztosan állĂt olyasmit, ami a kĂ©pen vagy a betegadatokban nincs ott. A 2025 vĂ©gĂ©n publikált CheXPO-v2 kutatás pont ezt a problĂ©mát cĂ©lozza: nem „mĂ©g több adatot” vagy „mĂ©g nagyobb modellt” ĂgĂ©r, hanem jobb tanĂtást. Olyan tanĂtási visszajelzĂ©st, ami nemcsak azt nĂ©zi, hogy a vĂ©gsĹ‘ válasz helyes-e, hanem azt is, hogy az odavezetĹ‘ gondolatmenet ellenĹ‘rizhetĹ‘ Ă©s konzisztens-e.
A „Mesterséges intelligencia az egészségügyben” sorozatban én ezt különösen fontos iránynak tartom: a klinikai környezetben nem elég „jó arányban eltalálni” a választ. A bizalom alapja a követhetőség – különösen radiológiában, ahol egy rossz, de jól hangzó magyarázat többet árthat, mint egy rövid „nem tudom”.
Miért hallucinál a radiológiai VLM, és miért baj, ha „szépen” indokol?
A kulcspont egyszerű: a legtöbb tanĂtási eljárás a vĂ©geredmĂ©nyt jutalmazza, nem a gondolkodás közbeni fegyelmet.
A cikk a radiolĂłgiai VLM-ek igazĂtásánál (alignment) gyakran használt, költsĂ©ghatĂ©kony megoldásra, a Group Relative Policy Optimization (GRPO) jellegű megerĹ‘sĂtĂ©ses tanĂtásra utal. EzeknĂ©l jellemzĹ‘en egy ritka, kimenetalapĂş jutalom Ă©rkezik: helyes-e a válasz, megfelel-e egy elvárt formátumnak, stb. Ilyenkor a modell könnyen „ráérez” arra, hogy a hosszĂş, rĂ©szletesnek tűnĹ‘ magyarázat sokszor segĂt átcsĂşszni a szűrĹ‘kön – mĂ©g ha közben nem is ellenĹ‘rizhetĹ‘.
Az „áttanult magabiztosság” klinikai kockázata
A valós kockázat nem az, hogy a modell néha téved. Hanem az, hogy:
- koherensnek látszó, de téves okfejtést ad,
- keveri az anatómiát („jobb” vs. „bal”, lebenyek),
- összemossa a relációkat („nincs” vs. „kizárható” vs. „felmerül”),
- Ă©s mindezt olyan stĂlusban, amit a felhasználĂł – fĹ‘leg nagy terhelĂ©s mellett – könnyen kĂ©szpĂ©nznek vesz.
A radiológiában ez különösen érzékeny, mert egy mellkasröntgen-lelet sokszor triázs döntéseket támogat (pl. sürgősség, izoláció, további képalkotás).
„A klinikai megbĂzhatĂłság nem ott kezdĹ‘dik, hogy a modell okosnak hangzik, hanem ott, hogy a tĂ©vedĂ©sei gyorsan leleplezhetĹ‘k.”
CheXPO-v2: mi a trükk? A válasz helyett a folyamatot felügyeli
A CheXPO-v2 fĹ‘ állĂtása: a hallucináciĂłk egy rĂ©sze azĂ©rt marad rejtve, mert csak a vĂ©gsĹ‘ választ jutalmazzuk. Ehelyett a szerzĹ‘k folyamatfelĂĽgyeletet (process supervision) javasolnak: a modell által leĂrt gondolatmenetet „atomokra” bontják, Ă©s ezeket ellenĹ‘rzik.
Tudásgráf-konzisztencia jutalom: „betegség–reláció–anatómia” hármasok
A módszer központi eleme a Knowledge Graph Consistency Reward, amelynek lényege, hogy a modell magyarázatából (reasoning) strukturált egységeket képez:
- Betegség / eltérés (pl. pleurális folyadék, infiltrátum, pneumothorax)
- Reláció (pl. jelen van, hiányzik, gyanú, lokalizáció)
- AnatĂłmia (pl. bal alsĂł lebeny, pleura, mediastinum)
Ezekből tripletek (hármasok) lesznek: „(eltérés, reláció, anatómia)”. A modell jutalmat kap, ha a hármasok összhangban vannak egy orvosi tudásreprezentációval (tudásgráffal), és büntetést, ha ellentmondásosak vagy „összevissza” kapcsolódnak.
A gyakorlati jelentĹ‘sĂ©g: ha a modell azt Ărja, hogy „nincs pneumothorax”, majd kĂ©sĹ‘bb „a jobb oldali pneumothorax jelei…”, az már nem csak stĂlushiba, hanem formálisan is inkonzisztens – Ă©s ez visszajelzĂ©skĂ©nt azonnal fáj neki tanulás közben.
Miért jobb ez, mint a sima pontosság-hajszolás?
Mert a klinikai munkában a hibák tipikusan lokálisak:
- rossz oldal,
- rossz anatómiai régió,
- rossz reláció („felmerül” vs. „biztos”),
- vagy túl erős következtetés egy gyenge jelből.
A tripletekre bontás ezekre a mikrĂłhibákra ad cĂ©lzott felĂĽgyeletet. Nem „a teljes választ” bĂĽnteti, hanem azt a konkrĂ©t állĂtást, ami fĂ©lrement.
Adathatékonyság: miért nagy szám, hogy 5 000 mintával is SOTA?
A CheXPO-v2 egyik legjobban idĂ©zhetĹ‘ eredmĂ©nye, hogy mindössze 5 000 mintával is kĂ©pes Ăşj csĂşcsteljesĂtmĂ©nyt elĂ©rni a mellkasröntgen VQA (kĂ©p-alapĂş kĂ©rdĂ©s-válasz) feladatokban emlĂtett benchmarkon.
Ez nem csak ML-szempontból izgalmas. Egészségügyben az adat drága, és nem azért, mert a kórház „ül rajta”, hanem mert:
- az annotáció szakértőt igényel,
- a minĹ‘sĂ©gbiztosĂtás idĹ‘igĂ©nyes,
- az adatvédelmi és jogi megfelelés költséges,
- Ă©s intĂ©zmĂ©nyek között nehĂ©z standardizálni a cĂmkĂ©zĂ©st.
Ha egy mĂłdszer tĂ©nyleg jobban teljesĂt kevesebb, de okosabban felhasznált adaton, az közelebb visz a valĂłs bevezethetĹ‘sĂ©ghez – kĂĽlönösen kisebb rĂ©giĂłs kĂłrházakban vagy specialista-hiányos helyeken.
Hard-example mining: nem a könnyű kérdésektől tanul a legtöbbet
A szerzĹ‘k a tudásgráf-jutalmat egy hard-example mining stratĂ©giával kombinálják. Magyarul: a modellt nem hagyják „ellustulni” a triviális eseteken, hanem ráirányĂtják a fĂłkuszt azokra a mintákra, ahol:
- gyakori az ellentmondás,
- a megkülönböztetés finom (pl. atelectasia vs. infiltrátum),
- vagy a kérdés félreviheti a modellt.
A klinikai párhuzam kézenfekvő: a rezidens sem attól lesz jobb, hogy 200-szor felismeri a teljesen egyértelmű tüdőödémát, hanem attól, hogy megizzad a határeseteknél – és visszajelzést kap pont ott, ahol bizonytalan.
Mit jelent ez a kórházi gyakorlatban? 4 kézzelfogható felhasználás
A CheXPO-v2 nem egy „kĂ©sz termĂ©k”, hanem egy tanĂtási keretrendszer, de a hatása nagyon konkrĂ©t irányokba mutat. Itt van nĂ©gy olyan alkalmazás, ahol a konzisztens, ellenĹ‘rizhetĹ‘ Ă©rvelĂ©s azonnal Ă©rtĂ©ket teremt.
1) Radiológiai döntéstámogatás: kevesebb „szép, de téves” magyarázat
A döntéstámogató rendszereknél én azt várom el, hogy:
- röviden összefoglaljon,
- jelölje a bizonytalanságot,
- Ă©s ne gyártsa le a „mindent megmagyarázó” narratĂvát.
A tudásgráf-konzisztencia pont ebbe az irányba tol: a modell nem attĂłl kap jutalmat, hogy sokat beszĂ©l, hanem attĂłl, hogy összefĂĽggĹ‘en Ă©s ellenĹ‘rizhetĹ‘en állĂt.
2) Leletminőség-ellenőrzés és standardizálás
Sok intĂ©zmĂ©nyben a leletezĂ©s stĂlusa radiolĂłgusonkĂ©nt eltĂ©r. Egy konzisztenciára tanĂtott VLM alkalmas lehet arra, hogy:
- kiszúrja az anatómiai ellentmondásokat,
- jelezze a tĂşl erĹ‘s állĂtásokat,
- vagy összevesse a lelet szövegét a képi megfigyelésekkel.
Ez nem „automatizált aláĂrás”. Ez egy minĹ‘sĂ©gbiztosĂtási második pár szem.
3) Triázs és munkalisták priorizálása (különösen télen)
2025 decemberében – és általában a téli időszakban – a légúti esetek terhelése tipikusan nő. Ilyenkor felértékelődik a gyors, de biztonságos triázs.
Egy jĂłl igazĂtott modell segĂthet abban, hogy a mellkasröntgen-leletezĂ©s elĹ‘tti szűrĂ©s:
- kiemelje a sürgős mintázatokat (pl. pneumothorax gyanú),
- és közben ne „ál-sürgősségeket” találjon ki.
A kĂĽlönbsĂ©g itt Ă©lethelyzet: a hamis pozitĂv rontja a workflow-t, a hamis negatĂv veszĂ©lyeztet.
4) Oktatás: miért jó, ha a modell „tanulható módon” magyaráz?
A rezidensek képzésében szerintem az a jó AI, ami nem megmondja a választ, hanem:
- strukturáltan összeköti az eltérést az anatómiai régióval,
- és jelzi, ha a gondolatmenet ugrik.
A tripletes szemlélet itt didaktikailag is erős: „Mit látsz? Hol? Mit jelent?” – ez a radiológiai alap.
Gyakori kérdések: amit egy kórházi döntéshozó joggal kérdez
„A tudásgráf nem merev? Mi van az atĂpusos esetekkel?”
A tudásgráf akkor hasznos, ha minimális, klinikailag stabil szabályokat kĂłdol: oldal, anatĂłmia, tipikus reláciĂłk. Nem kell minden ritkaságot lefednie. Az atĂpusos eseteknĂ©l a cĂ©l nem az, hogy a modellt „ráerĹ‘ltessĂĽk” a sĂ©mára, hanem hogy legalább ne mondjon önellentmondást.
„Nem lesz ettĹ‘l tĂşl konzervatĂv a modell?”
Lehet, ha rosszul sĂşlyozzák a jutalmat. De klinikailag Ă©n inkább egy kicsit konzervatĂv modellt választok, amely:
- jelzi a bizonytalanságot,
- és kér további vizsgálatot,
minthogy magabiztosan tévedjen.
„Mitől lesz ez valóban bevezethető?”
A bevezethetőség nem a pontosságnál kezdődik, hanem a folyamatnál:
- lokális validáció (intézményi adat, protokollok),
- monitorozás (hallucinációk, drift, hibaminták),
- felhasználói UI (mikor, hogyan jelenik meg a magyarázat),
- felelősségi keretek (ki dönt, ki hagy jóvá).
A CheXPO-v2 abban segĂt, hogy a 2-es pont (hibaminták) mĂ©rhetĹ‘bbĂ© váljon, mert a hibák tripletszinten diagnosztizálhatĂłk.
Mit érdemes most lépni, ha AI-t tervezel radiológiában?
Ha kórházban, diagnosztikai központban vagy egészségügyi szoftverfejlesztésben dolgozol, én ezt a három lépést javaslom 2026 elejére:
- Definiáljátok a „nem elfogadható hibát”: oldalcsere, nem létező eltérés, túl erős kijelentés. Ezt később jutalmazni/büntetni tudjátok.
- Válasszatok strukturált ellenĹ‘rzĂ©si egysĂ©get: tripletek, cĂmkĂ©k, vagy legalább anatĂłmia–eltĂ©rĂ©s párok. A szöveg önmagában tĂşl csĂşszĂłs.
- KĂ©rjĂ©tek számon a konzisztenciát a beszállĂtĂłkon: ne csak AUC/accuracy legyen a slide-on, hanem inkonzisztencia-ráta, hallucináciĂłs hibatĂpusok, Ă©s pĂ©ldák.
A „MestersĂ©ges intelligencia az egĂ©szsĂ©gĂĽgyben” sorozatban Ăşjra Ă©s Ăşjra ugyanoda jutunk: a diagnosztikában az AI Ă©rtĂ©ke nem az, hogy tud beszĂ©lni a kĂ©pekrĹ‘l, hanem az, hogy biztonságosan tud velĂĽk bánni. A CheXPO-v2 iránya nekem azt ĂĽzeni, hogy a következĹ‘ Ă©vek nyertesei azok a megoldások lesznek, amelyek a magyarázatot nem dĂszĂtĂ©snek tekintik, hanem ellenĹ‘rizhetĹ‘ „szerzĹ‘dĂ©snek” a klinikus Ă©s a rendszer között.
Te mit preferálnál a saját intézményedben: egy modellt, ami ritkán téved, de nem tudja megindokolni – vagy egyet, ami vállalja a gondolatmenetét, és ezért könnyebb auditálni?