Kevesebb hallucináció a mellkasröntgen AI-ban

Mesterséges intelligencia az egészségügyben••By 3L3C

Mellkasröntgen AI-ban a hallucináció a fő veszély. A CheXPO-v2 tudásgráf-alapú konzisztenciával teszi ellenőrizhetőbbé a modellek érvelését.

mellkasröntgenradiológiaVLMhallucinációtudásgráfdiagnózistámogatás
Share:

Featured image for Kevesebb hallucináció a mellkasröntgen AI-ban

Kevesebb hallucináció a mellkasröntgen AI-ban

A mellkasröntgen az egyik leggyakrabban kért képalkotó vizsgálat, mégis az egyik legkönnyebben félreérthető: a leletek nyelve tömör, tele van kizárásokkal („nem látható”), valószínűségekkel („felmerül”), és olyan összefüggésekkel, amiket a klinikai kontextus nélkül nehéz jól értelmezni. Ez az a terep, ahol a vizuális-nyelvi modellek (VLM-ek) látványosan hasznosak tudnak lenni – és ugyanilyen látványosan tudnak hibázni.

A legkellemetlenebb hiba a hallucináció: amikor a modell magabiztosan állít olyasmit, ami a képen vagy a betegadatokban nincs ott. A 2025 végén publikált CheXPO-v2 kutatás pont ezt a problémát célozza: nem „még több adatot” vagy „még nagyobb modellt” ígér, hanem jobb tanítást. Olyan tanítási visszajelzést, ami nemcsak azt nézi, hogy a végső válasz helyes-e, hanem azt is, hogy az odavezető gondolatmenet ellenőrizhető és konzisztens-e.

A „Mesterséges intelligencia az egészségügyben” sorozatban én ezt különösen fontos iránynak tartom: a klinikai környezetben nem elég „jó arányban eltalálni” a választ. A bizalom alapja a követhetőség – különösen radiológiában, ahol egy rossz, de jól hangzó magyarázat többet árthat, mint egy rövid „nem tudom”.

Miért hallucinál a radiológiai VLM, és miért baj, ha „szépen” indokol?

A kulcspont egyszerű: a legtöbb tanítási eljárás a végeredményt jutalmazza, nem a gondolkodás közbeni fegyelmet.

A cikk a radiológiai VLM-ek igazításánál (alignment) gyakran használt, költséghatékony megoldásra, a Group Relative Policy Optimization (GRPO) jellegű megerősítéses tanításra utal. Ezeknél jellemzően egy ritka, kimenetalapú jutalom érkezik: helyes-e a válasz, megfelel-e egy elvárt formátumnak, stb. Ilyenkor a modell könnyen „ráérez” arra, hogy a hosszú, részletesnek tűnő magyarázat sokszor segít átcsúszni a szűrőkön – még ha közben nem is ellenőrizhető.

Az „áttanult magabiztosság” klinikai kockázata

A valós kockázat nem az, hogy a modell néha téved. Hanem az, hogy:

  • koherensnek látszĂł, de tĂ©ves okfejtĂ©st ad,
  • keveri az anatĂłmiát („jobb” vs. „bal”, lebenyek),
  • összemossa a reláciĂłkat („nincs” vs. „kizárható” vs. „felmerĂĽl”),
  • Ă©s mindezt olyan stĂ­lusban, amit a felhasználĂł – fĹ‘leg nagy terhelĂ©s mellett – könnyen kĂ©szpĂ©nznek vesz.

A radiológiában ez különösen érzékeny, mert egy mellkasröntgen-lelet sokszor triázs döntéseket támogat (pl. sürgősség, izoláció, további képalkotás).

„A klinikai megbízhatóság nem ott kezdődik, hogy a modell okosnak hangzik, hanem ott, hogy a tévedései gyorsan leleplezhetők.”

CheXPO-v2: mi a trükk? A válasz helyett a folyamatot felügyeli

A CheXPO-v2 fő állítása: a hallucinációk egy része azért marad rejtve, mert csak a végső választ jutalmazzuk. Ehelyett a szerzők folyamatfelügyeletet (process supervision) javasolnak: a modell által leírt gondolatmenetet „atomokra” bontják, és ezeket ellenőrzik.

Tudásgráf-konzisztencia jutalom: „betegség–reláció–anatómia” hármasok

A módszer központi eleme a Knowledge Graph Consistency Reward, amelynek lényege, hogy a modell magyarázatából (reasoning) strukturált egységeket képez:

  • BetegsĂ©g / eltĂ©rĂ©s (pl. pleurális folyadĂ©k, infiltrátum, pneumothorax)
  • ReláciĂł (pl. jelen van, hiányzik, gyanĂş, lokalizáciĂł)
  • AnatĂłmia (pl. bal alsĂł lebeny, pleura, mediastinum)

Ezekből tripletek (hármasok) lesznek: „(eltérés, reláció, anatómia)”. A modell jutalmat kap, ha a hármasok összhangban vannak egy orvosi tudásreprezentációval (tudásgráffal), és büntetést, ha ellentmondásosak vagy „összevissza” kapcsolódnak.

A gyakorlati jelentőség: ha a modell azt írja, hogy „nincs pneumothorax”, majd később „a jobb oldali pneumothorax jelei…”, az már nem csak stílushiba, hanem formálisan is inkonzisztens – és ez visszajelzésként azonnal fáj neki tanulás közben.

Miért jobb ez, mint a sima pontosság-hajszolás?

Mert a klinikai munkában a hibák tipikusan lokálisak:

  • rossz oldal,
  • rossz anatĂłmiai rĂ©giĂł,
  • rossz reláciĂł („felmerĂĽl” vs. „biztos”),
  • vagy tĂşl erĹ‘s következtetĂ©s egy gyenge jelbĹ‘l.

A tripletekre bontás ezekre a mikróhibákra ad célzott felügyeletet. Nem „a teljes választ” bünteti, hanem azt a konkrét állítást, ami félrement.

Adathatékonyság: miért nagy szám, hogy 5 000 mintával is SOTA?

A CheXPO-v2 egyik legjobban idézhető eredménye, hogy mindössze 5 000 mintával is képes új csúcsteljesítményt elérni a mellkasröntgen VQA (kép-alapú kérdés-válasz) feladatokban említett benchmarkon.

Ez nem csak ML-szempontból izgalmas. Egészségügyben az adat drága, és nem azért, mert a kórház „ül rajta”, hanem mert:

  • az annotáciĂł szakĂ©rtĹ‘t igĂ©nyel,
  • a minĹ‘sĂ©gbiztosĂ­tás idĹ‘igĂ©nyes,
  • az adatvĂ©delmi Ă©s jogi megfelelĂ©s költsĂ©ges,
  • Ă©s intĂ©zmĂ©nyek között nehĂ©z standardizálni a cĂ­mkĂ©zĂ©st.

Ha egy módszer tényleg jobban teljesít kevesebb, de okosabban felhasznált adaton, az közelebb visz a valós bevezethetőséghez – különösen kisebb régiós kórházakban vagy specialista-hiányos helyeken.

Hard-example mining: nem a könnyű kérdésektől tanul a legtöbbet

A szerzők a tudásgráf-jutalmat egy hard-example mining stratégiával kombinálják. Magyarul: a modellt nem hagyják „ellustulni” a triviális eseteken, hanem ráirányítják a fókuszt azokra a mintákra, ahol:

  • gyakori az ellentmondás,
  • a megkĂĽlönböztetĂ©s finom (pl. atelectasia vs. infiltrátum),
  • vagy a kĂ©rdĂ©s fĂ©lreviheti a modellt.

A klinikai párhuzam kézenfekvő: a rezidens sem attól lesz jobb, hogy 200-szor felismeri a teljesen egyértelmű tüdőödémát, hanem attól, hogy megizzad a határeseteknél – és visszajelzést kap pont ott, ahol bizonytalan.

Mit jelent ez a kórházi gyakorlatban? 4 kézzelfogható felhasználás

A CheXPO-v2 nem egy „kész termék”, hanem egy tanítási keretrendszer, de a hatása nagyon konkrét irányokba mutat. Itt van négy olyan alkalmazás, ahol a konzisztens, ellenőrizhető érvelés azonnal értéket teremt.

1) Radiológiai döntéstámogatás: kevesebb „szép, de téves” magyarázat

A döntéstámogató rendszereknél én azt várom el, hogy:

  • röviden összefoglaljon,
  • jelölje a bizonytalanságot,
  • Ă©s ne gyártsa le a „mindent megmagyarázó” narratĂ­vát.

A tudásgráf-konzisztencia pont ebbe az irányba tol: a modell nem attól kap jutalmat, hogy sokat beszél, hanem attól, hogy összefüggően és ellenőrizhetően állít.

2) Leletminőség-ellenőrzés és standardizálás

Sok intézményben a leletezés stílusa radiológusonként eltér. Egy konzisztenciára tanított VLM alkalmas lehet arra, hogy:

  • kiszĂşrja az anatĂłmiai ellentmondásokat,
  • jelezze a tĂşl erĹ‘s állĂ­tásokat,
  • vagy összevesse a lelet szövegĂ©t a kĂ©pi megfigyelĂ©sekkel.

Ez nem „automatizált aláírás”. Ez egy minőségbiztosítási második pár szem.

3) Triázs és munkalisták priorizálása (különösen télen)

2025 decemberében – és általában a téli időszakban – a légúti esetek terhelése tipikusan nő. Ilyenkor felértékelődik a gyors, de biztonságos triázs.

Egy jól igazított modell segíthet abban, hogy a mellkasröntgen-leletezés előtti szűrés:

  • kiemelje a sĂĽrgĹ‘s mintázatokat (pl. pneumothorax gyanĂş),
  • Ă©s közben ne „ál-sĂĽrgĹ‘ssĂ©geket” találjon ki.

A különbség itt élethelyzet: a hamis pozitív rontja a workflow-t, a hamis negatív veszélyeztet.

4) Oktatás: miért jó, ha a modell „tanulható módon” magyaráz?

A rezidensek képzésében szerintem az a jó AI, ami nem megmondja a választ, hanem:

  • strukturáltan összeköti az eltĂ©rĂ©st az anatĂłmiai rĂ©giĂłval,
  • Ă©s jelzi, ha a gondolatmenet ugrik.

A tripletes szemlélet itt didaktikailag is erős: „Mit látsz? Hol? Mit jelent?” – ez a radiológiai alap.

Gyakori kérdések: amit egy kórházi döntéshozó joggal kérdez

„A tudásgráf nem merev? Mi van az atípusos esetekkel?”

A tudásgráf akkor hasznos, ha minimális, klinikailag stabil szabályokat kódol: oldal, anatómia, tipikus relációk. Nem kell minden ritkaságot lefednie. Az atípusos eseteknél a cél nem az, hogy a modellt „ráerőltessük” a sémára, hanem hogy legalább ne mondjon önellentmondást.

„Nem lesz ettől túl konzervatív a modell?”

Lehet, ha rosszul súlyozzák a jutalmat. De klinikailag én inkább egy kicsit konzervatív modellt választok, amely:

  • jelzi a bizonytalanságot,
  • Ă©s kĂ©r további vizsgálatot,

minthogy magabiztosan tévedjen.

„Mitől lesz ez valóban bevezethető?”

A bevezethetőség nem a pontosságnál kezdődik, hanem a folyamatnál:

  1. lokális validáció (intézményi adat, protokollok),
  2. monitorozás (hallucinációk, drift, hibaminták),
  3. felhasználói UI (mikor, hogyan jelenik meg a magyarázat),
  4. felelősségi keretek (ki dönt, ki hagy jóvá).

A CheXPO-v2 abban segít, hogy a 2-es pont (hibaminták) mérhetőbbé váljon, mert a hibák tripletszinten diagnosztizálhatók.

Mit érdemes most lépni, ha AI-t tervezel radiológiában?

Ha kórházban, diagnosztikai központban vagy egészségügyi szoftverfejlesztésben dolgozol, én ezt a három lépést javaslom 2026 elejére:

  1. Definiáljátok a „nem elfogadható hibát”: oldalcsere, nem létező eltérés, túl erős kijelentés. Ezt később jutalmazni/büntetni tudjátok.
  2. Válasszatok strukturált ellenőrzési egységet: tripletek, címkék, vagy legalább anatómia–eltérés párok. A szöveg önmagában túl csúszós.
  3. Kérjétek számon a konzisztenciát a beszállítókon: ne csak AUC/accuracy legyen a slide-on, hanem inkonzisztencia-ráta, hallucinációs hibatípusok, és példák.

A „Mesterséges intelligencia az egészségügyben” sorozatban újra és újra ugyanoda jutunk: a diagnosztikában az AI értéke nem az, hogy tud beszélni a képekről, hanem az, hogy biztonságosan tud velük bánni. A CheXPO-v2 iránya nekem azt üzeni, hogy a következő évek nyertesei azok a megoldások lesznek, amelyek a magyarázatot nem díszítésnek tekintik, hanem ellenőrizhető „szerződésnek” a klinikus és a rendszer között.

Te mit preferálnál a saját intézményedben: egy modellt, ami ritkán téved, de nem tudja megindokolni – vagy egyet, ami vállalja a gondolatmenetét, és ezért könnyebb auditálni?