CheXPO-v2: tudásgráf-konzisztenciával csökkenti a mellkasröntgen-AI hallucinációit, és 5k mintával is erős. Nézd meg, mit jelent ez a gyakorlatban.

Kevesebb hallucináció a mellkasröntgen-AI-ban: CheXPO-v2
A mellkasröntgen az egyik leggyakrabban kért képalkotó vizsgálat, mégis sokszor fárasztóan „apró betűs” műfaj: rengeteg normál variáns, kórtörténeti csavar, és a leletben egyetlen elhibázott mondat is félreviszi a döntést. Amikor pedig a mesterséges intelligencia (AI) képet kap és szöveget ad — például válaszol egy klinikai kérdésre vagy magyarázza a látottakat — a legnagyobb kockázat nem az, hogy néha téved. Hanem az, hogy magabiztosan talál ki dolgokat.
A 2025.12.22-Ă©n publikált CheXPO-v2 kutatás (mellkasröntgenre Ă©pĂtett vizuális-nyelvi modell, azaz VLM) pont ezt a problĂ©mát veszi cĂ©lba: hogyan lehet az AI-t Ăşgy „nevelni”, hogy ne csak jĂł választ adjon, hanem közben vĂ©gig követhetĹ‘, ellenĹ‘rizhetĹ‘ Ă©s klinikailag koherens gondolatmenetet.
A „MestersĂ©ges intelligencia az egĂ©szsĂ©gĂĽgyben” sorozatunkban rendszeresen azt keressĂĽk, hol lesz az AI valĂłdi segĂtsĂ©g a diagnosztikában — Ă©s hol kell fĂ©k. Nekem ez a munka azĂ©rt Ă©rdekes, mert egy rĂ©gi tĂ©vhitet bont le: nem attĂłl lesz biztonságosabb egy modell, hogy hosszabban indokol, hanem attĂłl, hogy az indoklása ellenĹ‘rizhetĹ‘ egysĂ©gekre bonthatĂł.
Miért hallucinálnak a VLM-ek, és miért baj a „túlmagyarázás”?
A kulcsállĂtás egyszerű: az orvosi VLM-ek hajlamosak hallucinálni, vagyis olyan állĂtásokat generálni, amelyek nem következnek a kĂ©pbĹ‘l (vagy a kĂ©rdĂ©sbĹ‘l), mĂ©gis hihetĹ‘en hangzanak. Ez mellkasröntgenen kĂĽlönösen veszĂ©lyes, mert a leletnyelv rutinszerű — a modell könnyen „rááll” tipikus panelekre.
A kutatás szerint a jelenleg nĂ©pszerű, alacsony költsĂ©gű megerĹ‘sĂtĂ©ses tanulási (RL) illesztĂ©sek — pĂ©ldául a GRPO (Group Relative Policy Optimization) — gyakran kimenet-alapĂş jutalmazással dolgoznak: a modell akkor kap jutalmat, ha a vĂ©gsĹ‘ válasza jĂł. Csakhogy ennek mellĂ©khatása van: a modell rájöhet, hogy hosszĂş, körĂĽlmĂ©nyes magyarázattal könnyebb „megvĂ©deni” a választ.
A hosszĂş indoklás nem bizonyĂtĂ©k
A klinikumban a „tĂşlmagyarázás” ismerĹ‘s jelensĂ©g: egy rossz következtetĂ©s is lehet gyönyörűen felĂ©pĂtve. AI-nál ez mĂ©g rosszabb, mert a Chain-of-Thought tĂpusĂş hosszĂş levezetĂ©sek sokszor:
- nehezen verifikálhatĂłk (mit is állĂt pontosan a modell?),
- elfedik a konkrét tényhibát,
- és hamis biztonságérzetet keltenek a felhasználóban.
A CheXPO-v2 ebbe nyúl bele: nem azt kérdezi, „helyes-e a végső mondat”, hanem azt, hogy a köztes lépések összhangban vannak-e egy orvosilag értelmezhető tudásstruktúrával.
CheXPO-v2 dióhéjban: folyamat-felügyelet tudásgráffal
A CheXPO-v2 legfontosabb ĂşjĂtása az, hogy az illesztĂ©st kimenet-felĂĽgyeletrĹ‘l (outcome supervision) rĂ©szben átteszi folyamat-felĂĽgyeletre (process supervision). Magyarul: a modell ne csak „találjon el” valamit, hanem közben következetesen gondolkodjon.
A módszer központi eleme egy Tudásgráf-konzisztencia jutalom (Knowledge Graph Consistency Reward), amelyet entitás–reláció illesztés (Entity-Relation Matching) vezérel.
Tripletek: „Betegség – Reláció – Anatómia”
A CheXPO-v2 a modell magyarázatát nem egyben nézi, hanem feldarabolja ellenőrizhető „atomokra”. Ezek a tripletek ilyenek:
- Betegség (pl. pleurális folyadék, pneumothorax, infiltrátum)
- Reláció (pl. „jelen van”, „nincs”, „kiterjed”, „lokalizálódik”, „súlyosbodik”)
- Anatómia (pl. jobb alsó lebeny, pleuratér, hilus)
Ez azĂ©rt nagy szám, mert egy röntgenlelet tipikusan ilyen mikróállĂtások sorozata. Ha a modell azt Ărja: „bal oldali pneumothorax látható”, akkor az megfeleltethetĹ‘ egy (pneumothorax – jelen van – bal pleuratĂ©r) tĂpusĂş állĂtásnak.
Mit jutalmaz a rendszer, és mit büntet?
A rendszer a tripletek szintjén képes:
- jutalmazni a konzisztens, orvosilag értelmes kapcsolatrendszert,
- bĂĽntetni az inkonzisztens vagy „odadobott” állĂtásokat (klasszikus hallucináciĂł),
- Ă©s visszafogni a körĂtĂ©s jellegű, ellenĹ‘rizhetetlen „okoskodást”.
Ezt Ă©n Ăşgy szoktam elmagyarázni laikusoknak, hogy nem esszĂ©t javĂtunk, hanem állĂtáslistát pipálunk: az AI nem „szĂ©p beszĂ©dĂ©rt”, hanem ellenĹ‘rizhetĹ‘ egysĂ©gekĂ©rt kap pontot.
MiĂ©rt számĂt ez a diagnosztikában? (MIMIC-CXR-VQA Ă©s 5k minta)
A szerzĹ‘k azt állĂtják, hogy a CheXPO-v2 jelentĹ‘sen felĂĽlmĂşlja a GRPO-t Ă©s több erĹ‘s alapmodellt olyan benchmarkokon, mint a MIMIC-CXR-VQA (mellkasröntgen kĂ©rdĂ©s–válasz feladatok). KĂ©t rĂ©szlet kĂĽlönösen fontos a kĂłrházi bevezethetĹ‘sĂ©g szempontjábĂłl:
- Adatéhség csökkentése: az új állapotcsúcs pontosságot (SOTA) mindössze 5 000 mintával is elérik.
- Ellenőrizhetőbb érvelés: nemcsak az a cél, hogy jó legyen a válasz, hanem hogy a magyarázat „szétszerelhető” legyen klinikai logikára.
Miért nagy dolog az 5 000 minta?
Az egĂ©szsĂ©gĂĽgyben a minĹ‘sĂ©gi annotáciĂł drága. Röntgen-VQA feladatban ráadásul nem elĂ©g „cĂmkĂ©zni” — sokszor kontextus, kĂ©rdĂ©s, válasz Ă©s levezetĂ©s is kell. Ha egy mĂłdszer kevesebb mintábĂłl is erĹ‘s, az:
- gyorsabb pilotot,
- olcsóbb finomhangolást,
- és intézményi szintű adaptációt tesz reálisabbá.
A valĂłság az, hogy a legtöbb kĂłrház nem tud tĂzezres-többszázezres, tökĂ©letesen tisztĂtott adathalmazokat előállĂtani. Az adatefficiencia tehát nem „szĂ©p bĂłnusz”, hanem a bevezethetĹ‘sĂ©g egyik feltĂ©tele.
Hogyan néz ki ez egy kórházi workflow-ban?
A legjobb diagnosztikai AI nem az, ami „átveszi” a radiolĂłgus helyĂ©t, hanem az, ami csökkenti a hibák esĂ©lyĂ©t Ă©s gyorsĂtja a döntĂ©st. A CheXPO-v2 tĂpusĂş megközelĂtĂ©st három gyakorlati helyen látom kĂĽlönösen erĹ‘snek.
1) Lelet-ellenőrzés és „konzisztencia riasztás”
Válasz elsőként: a tudásgráf-alapú konzisztencia alkalmas arra, hogy a modell saját szövegében találjon ellentmondást.
PĂ©lda: ha a modell egyszer azt Ărja, „nincs pleurális folyadĂ©k”, kĂ©sĹ‘bb meg „bal oldali pleurális folyadĂ©k kismĂ©rtĂ©kben”, az tripletszinten ĂĽtközik. Egy ilyen riasztás nem diagnĂłzist ad, hanem minĹ‘sĂ©gbiztosĂtást.
2) VQA a triázs támogatására (szigorú korlátokkal)
Az AI-alapú VQA (kérdés–válasz) akkor hasznos, ha:
- a kérdés szabályozott („Van-e pneumothorax?”),
- a válasz rövid és strukturált,
- és a rendszer hozzáteszi a tripletek szintű indoklást (mi alapján).
Itt a CheXPO-v2 ĂĽzenete az, hogy a rövidebb, atomokra bontott magyarázat sokszor biztonságosabb, mint a hosszĂş narratĂva.
3) Oktatás: „miért ezt gondoljuk a röntgenen?”
A rezidenskĂ©pzĂ©sben rengeteget számĂt, hogy a megfigyelĂ©sek Ă©s a következtetĂ©sek szĂ©tváljanak. A tripletek pont ezt kĂ©nyszerĂtik ki:
- mi a jelenség?
- hol van?
- milyen relációban áll a diagnózissal?
Ha az AI erre van ránevelve, oktatási segédként is jobb: nem csak kimondja, hanem szerkezetben mutatja.
Amitől ez még nem „kész termék”: biztonság, szabályozás, felelősség
Válasz elsĹ‘kĂ©nt: a CheXPO-v2 egy erĹ‘s irány, de nem helyettesĂti a klinikai validáciĂłt Ă©s a kockázatkezelĂ©st.
Három területet érdemes nagyon konkrétan kezelni, ha valaki kórházi pilotban gondolkodik:
Adateltérés (domain shift)
A MIMIC jellegű adatok nem ugyanazok, mint egy magyar kórház heterogén gépparkja, protokolljai, populációja. A modell lehet kiváló benchmarkon, és közepes a helyi valóságban. Ez ellen:
- helyi kalibráció,
- folyamatos teljesĂtmĂ©nymĂ©rĂ©s,
- és „out-of-distribution” jelzés kell.
Hallucináció ≠csak tényhiba
A hallucináció lehet:
- anatĂłmiai (rossz oldal/terĂĽlet),
- relációs („nincs” vs „van”),
- vagy következtetési (túl messzire megy).
A tripletek azĂ©rt jĂłk, mert mindhárom tĂpus cĂ©lzottan „fogható”. De a klinikai felelĹ‘ssĂ©get ettĹ‘l mĂ©g nem veszik le a rendszerrĹ‘l.
Ember a körben (human-in-the-loop)
Ha diagnosztikában AI-t használunk, a minimum:
- a felhasználĂł lássa, mit állĂt a rendszer (strukturáltan),
- legyen visszajelzési csatorna (hibajelentés),
- legyen protokoll, mikor nem használható (rossz minőség, hiányzó projekció, sürgős esetek stb.).
Egy diagnosztikai AI akkor jĂł, ha gyorsĂt — de közben nem kĂ©ri el a bizalmat bizonyĂtĂ©k nĂ©lkĂĽl.
Gyakori kérdések, amiket a döntéshozók feltesznek
„Ha a modell rövidebben magyaráz, nem lesz kevésbé átlátható?”
Nem. A rövidsĂ©g nem cĂ©l, az ellenĹ‘rizhetĹ‘sĂ©g a cĂ©l. A tripletek szintű magyarázat sokszor átláthatĂłbb, mint egy fĂ©loldalas narratĂva.
„Ez személyre szabott diagnózist ad?”
Nem Ăgy. A „preference optimization” itt inkább azt jelenti, hogy a modellt a kĂvánatos viselkedĂ©shez igazĂtják (kevesebb hallucináciĂł, koherensebb Ă©rvelĂ©s), nem azt, hogy betegszinten szemĂ©lyre szab.
„Mire jó ez 2026-ban egy magyar intézményben?”
A legreálisabb elsĹ‘ lĂ©pĂ©s szerintem a minĹ‘sĂ©gbiztosĂtás Ă©s döntĂ©stámogatás: strukturált megállapĂtások, konzisztencia-ellenĹ‘rzĂ©s, triázs jellegű kĂ©rdĂ©sek szigorĂş keretben.
Következő lépés: hogyan lesz ebből lead és valódi pilot?
A CheXPO-v2 üzenete a gyakorlatnak szerintem kristálytiszta: a diagnosztikai AI értéke nemcsak a pontosság, hanem az, hogy a hibát ne tudja „szép szöveggel” eltakarni. A tudásgráf-konzisztencia és a folyamat-felügyelet pont ebbe az irányba tolja a mezőnyt.
Ha intĂ©zmĂ©nyi oldalon gondolkodsz (radiolĂłgia, sĂĽrgĹ‘ssĂ©gi, minĹ‘sĂ©girányĂtás, IT), Ă©n a pilotot Ăgy kereteznĂ©m:
- Válasszatok 1–2 konkrét klinikai kérdést (pl. pneumothorax, pleurális folyadék).
- Határozzátok meg a „nem használható” eseteket (minőség, projekció, eszköz).
- Mérjetek: pontosság és konzisztencia (ellentmondás/100 vizsgálat).
- ÉpĂtsetek visszacsatolást: radiolĂłgusi jelölĂ©sekbĹ‘l finomhangolhatĂł szabályok/tripletek.
A „MestersĂ©ges intelligencia az egĂ©szsĂ©gĂĽgyben” sorozatban Ă©n ezt a vonalat látom a legĂ©rettebbnek 2026 kĂĽszöbĂ©n: nem több AI-szöveg kell a diagnosztikába, hanem jobban számonkĂ©rhetĹ‘ állĂtások.
Te melyik részét tartod a legnagyobb féknek a saját környezetedben: az adatminőséget, a workflow-integrációt, vagy a felelősségi/szabályozási kérdéseket?