Kevesebb hallucináció a mellkasröntgen-AI-ban: CheXPO-v2

Mesterséges intelligencia az egészségügybenBy 3L3C

CheXPO-v2: tudásgráf-konzisztenciával csökkenti a mellkasröntgen-AI hallucinációit, és 5k mintával is erős. Nézd meg, mit jelent ez a gyakorlatban.

mellkasröntgenradiológiaVLMhallucinációtudásgráfdöntéstámogatás
Share:

Featured image for Kevesebb hallucináció a mellkasröntgen-AI-ban: CheXPO-v2

Kevesebb hallucináció a mellkasröntgen-AI-ban: CheXPO-v2

A mellkasröntgen az egyik leggyakrabban kért képalkotó vizsgálat, mégis sokszor fárasztóan „apró betűs” műfaj: rengeteg normál variáns, kórtörténeti csavar, és a leletben egyetlen elhibázott mondat is félreviszi a döntést. Amikor pedig a mesterséges intelligencia (AI) képet kap és szöveget ad — például válaszol egy klinikai kérdésre vagy magyarázza a látottakat — a legnagyobb kockázat nem az, hogy néha téved. Hanem az, hogy magabiztosan talál ki dolgokat.

A 2025.12.22-én publikált CheXPO-v2 kutatás (mellkasröntgenre épített vizuális-nyelvi modell, azaz VLM) pont ezt a problémát veszi célba: hogyan lehet az AI-t úgy „nevelni”, hogy ne csak jó választ adjon, hanem közben végig követhető, ellenőrizhető és klinikailag koherens gondolatmenetet.

A „Mesterséges intelligencia az egészségügyben” sorozatunkban rendszeresen azt keressük, hol lesz az AI valódi segítség a diagnosztikában — és hol kell fék. Nekem ez a munka azért érdekes, mert egy régi tévhitet bont le: nem attól lesz biztonságosabb egy modell, hogy hosszabban indokol, hanem attól, hogy az indoklása ellenőrizhető egységekre bontható.

Miért hallucinálnak a VLM-ek, és miért baj a „túlmagyarázás”?

A kulcsállítás egyszerű: az orvosi VLM-ek hajlamosak hallucinálni, vagyis olyan állításokat generálni, amelyek nem következnek a képből (vagy a kérdésből), mégis hihetően hangzanak. Ez mellkasröntgenen különösen veszélyes, mert a leletnyelv rutinszerű — a modell könnyen „rááll” tipikus panelekre.

A kutatás szerint a jelenleg népszerű, alacsony költségű megerősítéses tanulási (RL) illesztések — például a GRPO (Group Relative Policy Optimization) — gyakran kimenet-alapú jutalmazással dolgoznak: a modell akkor kap jutalmat, ha a végső válasza jó. Csakhogy ennek mellékhatása van: a modell rájöhet, hogy hosszú, körülményes magyarázattal könnyebb „megvédeni” a választ.

A hosszú indoklás nem bizonyíték

A klinikumban a „túlmagyarázás” ismerős jelenség: egy rossz következtetés is lehet gyönyörűen felépítve. AI-nál ez még rosszabb, mert a Chain-of-Thought típusú hosszú levezetések sokszor:

  • nehezen verifikálhatók (mit is állít pontosan a modell?),
  • elfedik a konkrét tényhibát,
  • és hamis biztonságérzetet keltenek a felhasználóban.

A CheXPO-v2 ebbe nyúl bele: nem azt kérdezi, „helyes-e a végső mondat”, hanem azt, hogy a köztes lépések összhangban vannak-e egy orvosilag értelmezhető tudásstruktúrával.

CheXPO-v2 dióhéjban: folyamat-felügyelet tudásgráffal

A CheXPO-v2 legfontosabb újítása az, hogy az illesztést kimenet-felügyeletről (outcome supervision) részben átteszi folyamat-felügyeletre (process supervision). Magyarul: a modell ne csak „találjon el” valamit, hanem közben következetesen gondolkodjon.

A módszer központi eleme egy Tudásgráf-konzisztencia jutalom (Knowledge Graph Consistency Reward), amelyet entitás–reláció illesztés (Entity-Relation Matching) vezérel.

Tripletek: „Betegség – Reláció – Anatómia”

A CheXPO-v2 a modell magyarázatát nem egyben nézi, hanem feldarabolja ellenőrizhető „atomokra”. Ezek a tripletek ilyenek:

  • Betegség (pl. pleurális folyadék, pneumothorax, infiltrátum)
  • Reláció (pl. „jelen van”, „nincs”, „kiterjed”, „lokalizálódik”, „súlyosbodik”)
  • Anatómia (pl. jobb alsó lebeny, pleuratér, hilus)

Ez azért nagy szám, mert egy röntgenlelet tipikusan ilyen mikróállítások sorozata. Ha a modell azt írja: „bal oldali pneumothorax látható”, akkor az megfeleltethető egy (pneumothorax – jelen van – bal pleuratér) típusú állításnak.

Mit jutalmaz a rendszer, és mit büntet?

A rendszer a tripletek szintjén képes:

  • jutalmazni a konzisztens, orvosilag értelmes kapcsolatrendszert,
  • büntetni az inkonzisztens vagy „odadobott” állításokat (klasszikus hallucináció),
  • és visszafogni a körítés jellegű, ellenőrizhetetlen „okoskodást”.

Ezt én úgy szoktam elmagyarázni laikusoknak, hogy nem esszét javítunk, hanem állításlistát pipálunk: az AI nem „szép beszédért”, hanem ellenőrizhető egységekért kap pontot.

Miért számít ez a diagnosztikában? (MIMIC-CXR-VQA és 5k minta)

A szerzők azt állítják, hogy a CheXPO-v2 jelentősen felülmúlja a GRPO-t és több erős alapmodellt olyan benchmarkokon, mint a MIMIC-CXR-VQA (mellkasröntgen kérdés–válasz feladatok). Két részlet különösen fontos a kórházi bevezethetőség szempontjából:

  1. Adatéhség csökkentése: az új állapotcsúcs pontosságot (SOTA) mindössze 5 000 mintával is elérik.
  2. Ellenőrizhetőbb érvelés: nemcsak az a cél, hogy jó legyen a válasz, hanem hogy a magyarázat „szétszerelhető” legyen klinikai logikára.

Miért nagy dolog az 5 000 minta?

Az egészségügyben a minőségi annotáció drága. Röntgen-VQA feladatban ráadásul nem elég „címkézni” — sokszor kontextus, kérdés, válasz és levezetés is kell. Ha egy módszer kevesebb mintából is erős, az:

  • gyorsabb pilotot,
  • olcsóbb finomhangolást,
  • és intézményi szintű adaptációt tesz reálisabbá.

A valóság az, hogy a legtöbb kórház nem tud tízezres-többszázezres, tökéletesen tisztított adathalmazokat előállítani. Az adatefficiencia tehát nem „szép bónusz”, hanem a bevezethetőség egyik feltétele.

Hogyan néz ki ez egy kórházi workflow-ban?

A legjobb diagnosztikai AI nem az, ami „átveszi” a radiológus helyét, hanem az, ami csökkenti a hibák esélyét és gyorsítja a döntést. A CheXPO-v2 típusú megközelítést három gyakorlati helyen látom különösen erősnek.

1) Lelet-ellenőrzés és „konzisztencia riasztás”

Válasz elsőként: a tudásgráf-alapú konzisztencia alkalmas arra, hogy a modell saját szövegében találjon ellentmondást.

Példa: ha a modell egyszer azt írja, „nincs pleurális folyadék”, később meg „bal oldali pleurális folyadék kismértékben”, az tripletszinten ütközik. Egy ilyen riasztás nem diagnózist ad, hanem minőségbiztosítást.

2) VQA a triázs támogatására (szigorú korlátokkal)

Az AI-alapú VQA (kérdés–válasz) akkor hasznos, ha:

  • a kérdés szabályozott („Van-e pneumothorax?”),
  • a válasz rövid és strukturált,
  • és a rendszer hozzáteszi a tripletek szintű indoklást (mi alapján).

Itt a CheXPO-v2 üzenete az, hogy a rövidebb, atomokra bontott magyarázat sokszor biztonságosabb, mint a hosszú narratíva.

3) Oktatás: „miért ezt gondoljuk a röntgenen?”

A rezidensképzésben rengeteget számít, hogy a megfigyelések és a következtetések szétváljanak. A tripletek pont ezt kényszerítik ki:

  • mi a jelenség?
  • hol van?
  • milyen relációban áll a diagnózissal?

Ha az AI erre van ránevelve, oktatási segédként is jobb: nem csak kimondja, hanem szerkezetben mutatja.

Amitől ez még nem „kész termék”: biztonság, szabályozás, felelősség

Válasz elsőként: a CheXPO-v2 egy erős irány, de nem helyettesíti a klinikai validációt és a kockázatkezelést.

Három területet érdemes nagyon konkrétan kezelni, ha valaki kórházi pilotban gondolkodik:

Adateltérés (domain shift)

A MIMIC jellegű adatok nem ugyanazok, mint egy magyar kórház heterogén gépparkja, protokolljai, populációja. A modell lehet kiváló benchmarkon, és közepes a helyi valóságban. Ez ellen:

  • helyi kalibráció,
  • folyamatos teljesítménymérés,
  • és „out-of-distribution” jelzés kell.

Hallucináció ≠ csak tényhiba

A hallucináció lehet:

  • anatómiai (rossz oldal/terület),
  • relációs („nincs” vs „van”),
  • vagy következtetési (túl messzire megy).

A tripletek azért jók, mert mindhárom típus célzottan „fogható”. De a klinikai felelősséget ettől még nem veszik le a rendszerről.

Ember a körben (human-in-the-loop)

Ha diagnosztikában AI-t használunk, a minimum:

  1. a felhasználó lássa, mit állít a rendszer (strukturáltan),
  2. legyen visszajelzési csatorna (hibajelentés),
  3. legyen protokoll, mikor nem használható (rossz minőség, hiányzó projekció, sürgős esetek stb.).

Egy diagnosztikai AI akkor jó, ha gyorsít — de közben nem kéri el a bizalmat bizonyíték nélkül.

Gyakori kérdések, amiket a döntéshozók feltesznek

„Ha a modell rövidebben magyaráz, nem lesz kevésbé átlátható?”

Nem. A rövidség nem cél, az ellenőrizhetőség a cél. A tripletek szintű magyarázat sokszor átláthatóbb, mint egy féloldalas narratíva.

„Ez személyre szabott diagnózist ad?”

Nem így. A „preference optimization” itt inkább azt jelenti, hogy a modellt a kívánatos viselkedéshez igazítják (kevesebb hallucináció, koherensebb érvelés), nem azt, hogy betegszinten személyre szab.

„Mire jó ez 2026-ban egy magyar intézményben?”

A legreálisabb első lépés szerintem a minőségbiztosítás és döntéstámogatás: strukturált megállapítások, konzisztencia-ellenőrzés, triázs jellegű kérdések szigorú keretben.

Következő lépés: hogyan lesz ebből lead és valódi pilot?

A CheXPO-v2 üzenete a gyakorlatnak szerintem kristálytiszta: a diagnosztikai AI értéke nemcsak a pontosság, hanem az, hogy a hibát ne tudja „szép szöveggel” eltakarni. A tudásgráf-konzisztencia és a folyamat-felügyelet pont ebbe az irányba tolja a mezőnyt.

Ha intézményi oldalon gondolkodsz (radiológia, sürgősségi, minőségirányítás, IT), én a pilotot így keretezném:

  1. Válasszatok 1–2 konkrét klinikai kérdést (pl. pneumothorax, pleurális folyadék).
  2. Határozzátok meg a „nem használható” eseteket (minőség, projekció, eszköz).
  3. Mérjetek: pontosság és konzisztencia (ellentmondás/100 vizsgálat).
  4. Építsetek visszacsatolást: radiológusi jelölésekből finomhangolható szabályok/tripletek.

A „Mesterséges intelligencia az egészségügyben” sorozatban én ezt a vonalat látom a legérettebbnek 2026 küszöbén: nem több AI-szöveg kell a diagnosztikába, hanem jobban számonkérhető állítások.

Te melyik részét tartod a legnagyobb féknek a saját környezetedben: az adatminőséget, a workflow-integrációt, vagy a felelősségi/szabályozási kérdéseket?

🇭🇺 Kevesebb hallucináció a mellkasröntgen-AI-ban: CheXPO-v2 - Hungary | 3L3C