MI az orvosi képalkotásban: a „nem” csapdája

Mesterséges intelligencia az egészségügyben••By 3L3C

A CLIP-alapú orvosi MI gyakran félreérti a tagadást. Megmutatjuk, miért veszélyes ez, és hogyan teszteld, finomhangold, monitorozd.

orvosi MIradiológiamellkasröntgenCLIPvalidációkép-szöveg modellekbetegbiztonság
Share:

Featured image for MI az orvosi képalkotásban: a „nem” csapdája

MI az orvosi képalkotásban: a „nem” csapdája

Egy mellkasröntgen-leletben egyetlen szó képes teljesen megfordítani a jelentést: „nem”. „Nincs pneumothorax.” „Nem látható pleuralis folyadék.” A radiológiai nyelv tele van tagadással, mert a klinikai döntés szempontjából legalább annyira fontos, mi nincs ott, mint az, hogy mi van ott.

És itt jön a kellemetlen rész: a nagy kép–szöveg modellek (például a CLIP-alapú rendszerek), amelyeket sokan örömmel vetnének be képkiválasztásra, leletgenerálásra vagy diagnózistámogatásra, meglepően könnyen félreértik a tagadást. A 2025.12.18-án arXivra feltöltött friss tanulmány („The Effect of Negation on CLIP in Medical Imaging”) pont ezt a gyenge pontot boncolgatja: mi történik, amikor a modellnek olyan prompttal kell dolgoznia, amiben a kulcsszó előtt ott áll a „no/not”.

A „Mesterséges intelligencia az egészségügyben” sorozatban én azt látom a legfontosabbnak, hogy ne csak azt kérdezzük: „mire képes az MI?”, hanem azt is: „hol hibázik kiszámíthatóan, és hogyan tesszük klinikailag megbízhatóbbá?” A tagadás értése tipikusan ilyen „apró” részlet, ami a valóságban óriási.

Miért kritikus a tagadás a radiológiában?

A tagadás a radiológiai kommunikáció gerince. A leletek döntő része kizárásokat tartalmaz, mert a beutaló kérdése gyakran így hangzik: „van-e tüdőgyulladás?”, „látható-e pneumothorax?”, „van-e pangás?”. A válasz pedig sokszor: „nem”.

A „nem” klinikai kockázata: pont az ellenkezőjét jelenti

Ha egy MI-rendszer a „nincs pneumothorax” kifejezést összemossa a „pneumothorax” jelenlétével, akkor két rossz út van:

  • Hamis pozitĂ­v: felesleges riasztás, felesleges CT, felesleges konzĂ­lium, plusz stressz.
  • Hamis negatĂ­v (a másik irányban): elmaradĂł riasztás, kĂ©sĹ‘n Ă©szlelt állapot, betegbiztonsági kockázat.

A probléma azért alattomos, mert felületes metrikákkal könnyű elrejteni. Egy modell összteljesítménye jónak tűnhet, miközben pont a tagadásos esetekben csúszik meg – márpedig ezek a mindennapok.

Miért nem „nyelvtani apróság”?

A radiológiai tagadás nem csak a „nem” szó. Gyakoriak az olyan szerkezetek, mint:

  • „… nem valĂłszĂ­nű”
  • „… nem zárhatĂł ki”
  • „… nĂ©lkĂĽl”
  • „… negatĂ­v”
  • „… nincs egyĂ©rtelmű jele”

Ezek között vannak erős kizárások és óvatos, bizonytalanságot jelző formulák. Egy klinikai környezetben a modellnek árnyalatokat kellene értenie, nem csak kulcsszavakat.

Miért botlik meg a CLIP a tagadáson?

A CLIP logikája egyszerű: megtanulja, hogy egy kép és egy szöveg „összetartozik-e” (kontrasztív tanulás), jellemzően úgy, hogy sok kép–felirat párt lát. Ez remek olyan helyzetekben, ahol a szöveg pozitív állítás: „pneumonia”, „pleural effusion”.

A gond az, hogy a tagadás sokszor nem jelent vizuálisan új mintát. A „nincs pleuralis folyadék” tipikusan azt jelenti: „a kép normális ebből a szempontból”. A modell viszont könnyen rááll arra a heurisztikára, hogy ha a szövegben szerepel a „pleural effusion” kifejezés, akkor a hozzá tartozó képek legyenek azok, ahol van folyadék. A „no” token hatása eltörpül a nagy, domináns klinikai kulcsszó mellett.

Snippet-mondat, amit érdemes megjegyezni: A kontrasztív kép–szöveg tanulás gyakran „kulcsszó-egyezésre” egyszerűsíti a nyelvet, és a tagadás ezt azonnal leleplezi.

A tanulmány fókusza: CheXagent és tagadásos promptok

A friss munka a Stanford AIMI által publikált CheXagent modellt vizsgálja egy nagyon konkrét feladaton: mellkasröntgen képek visszakeresése (image retrieval) olyan szöveges promptokra, amelyek tagadást tartalmaznak, illetve nem tartalmaznak.

A szerzők nem álltak meg annál, hogy „rossz a pontosság”. Megnézték, mi történik a modellen belül:

  • token-attribĂşciĂł (mely szavak számĂ­tanak a döntĂ©sben),
  • t-SNE projekciĂł (hogyan rendezĹ‘dnek a reprezentáciĂłk),
  • attention head ablation (mely figyelmi fejek kritikusak).

Ez a három együtt azért hasznos, mert nem csak a tünetet látjuk, hanem közelebb kerülünk az okhoz: a szöveg-enkóder hogyan „érzi” a tagadást.

Mit mutatnak az eredmények, és miért fontos a trade-off?

A szerzők azt találták, hogy finomhangolással javítható a tagadás kezelése, viszont enyhe visszaesés jöhet a pozitív promptok pontosságában. Ez a rész szerintem kulcs: a klinikai MI-ben ritkán van „ingyen ebéd”.

A „kicsit rosszabb lett a pozitívokon” valójában tervezési döntés

Ha egy rendszer eddig szuper volt abban, hogy a „pneumothorax” prompttal pneumothoraxos képeket talál, de cserébe a „nincs pneumothorax” esetben rossz képeket hoz, akkor a modell kiszámíthatatlan. Egy diagnózistámogató vagy QA-eszköz esetén én inkább választok olyan modellt, amely:

  • kissĂ© kevĂ©sbĂ© agresszĂ­v a pozitĂ­v találatokban,
  • viszont stabilan kĂĽlönválasztja a tagadott Ă©s állĂ­tott kĂłrkĂ©peket.

Ez tipikusan betegbiztonsági kérdés. A tagadás hibája nem „edge case”, hanem mindennapi.

Miért segít a belső viselkedés vizsgálata?

A token-attribúció és az attention vizsgálatok gyakorlati előnye, hogy:

  • megmutatják, a „no/not” token tĂ©nylegesen kap-e sĂşlyt,
  • kiderĂĽl, hogy a finomhangolás a reprezentáciĂłs tĂ©rben szĂ©tválasztja-e a „pneumothorax” Ă©s „no pneumothorax” szövegeket,
  • azonosĂ­thatĂł, hogy bizonyos figyelmi fejek „felelĹ‘sek-e” a tagadás kezelĂ©séért.

Ez azért értékes, mert a klinikai validáció során nem elég annyi, hogy „átment a teszten”. A cél a magyarázhatóság és kontrollálhatóság: ha tudom, hol romlik el, tudom, mit monitorozzak élesben.

Gyakorlati tanulságok: hogyan tervezzünk megbízhatóbb kép–szöveg MI-t?

A tagadás kezelése nem utólagos kozmetika, hanem adat- és teszttervezési feladat. Ha a szervezetetek (kórház, teleradiológia, medtech cég) CLIP-szerű modellt használ vagy tervez használni, ezek a lépések működnek a gyakorlatban.

1) Tegyétek kötelezővé a tagadásos tesztkészletet

A validációs csomagban külön blokkot érdemes fenntartani:

  • pozitĂ­v állĂ­tások (pl. „pleuralis folyadĂ©k”),
  • explicit tagadások (pl. „nincs pleuralis folyadĂ©k”),
  • bizonytalanság (pl. „nem zárhatĂł ki pleuralis folyadĂ©k”),
  • kettĹ‘s állĂ­tások (pl. „pangás nincs, atelectasia megfigyelhető”).

A minimum, amit elvárok: külön riportolt metrikák tagadásra. Ne legyen elrejtve az átlagban.

2) Ne csak angol sablonokban gondolkodjatok

Magyar klinikai környezetben a nyelv más. A „nem igazolható” vagy a „nem ábrázolódik” gyakori. Ha magyar nyelvű leletekkel dolgoztok, kell:

  • magyar promptkĂ©szlet,
  • magyar leletnyelv tipikus fordulatai,
  • szinonimák Ă©s rövidĂ­tĂ©sek kezelĂ©se.

Aki ezt kihagyja, az valójában nem a magyar egészségügyre fejleszt, hanem egy demo-t épít.

3) Finomhangolásnál célzott „kontrasztpárok” kellenek

A tagadás tanításának egyik leghatékonyabb módja az, ha a modell nagyon közeli szövegpárokat lát, amelyek csak egy tagadó elemben különböznek, és a képek ennek megfelelően változnak.

Példa pár:

  • „pneumothorax látható” ↔ „pneumothorax nem látható”

Itt a modell kénytelen megtanulni, hogy a különbség nem dísz, hanem jelentés.

4) Külön kezeljétek a retrievalt és a diagnózist

A tanulmány retrievalről szól, de sok csapat innen ugrik diagnózisra. Én óvatos lennék: a „jó visszakeresés” nem egyenlő a „jó diagnózis”.

A retrieval akkor hasznos, ha:

  • hasonlĂł eseteket keresĂĽnk oktatáshoz,
  • QA cĂ©lra pĂ©ldákat gyűjtĂĽnk,
  • radiolĂłgus munkáját támogatjuk referenciakĂ©pekkel.

Diagnózisnál viszont más a felelősség, más a szabályozás, és több a csapda (adateltolódás, protokollkülönbség, eszközpark).

5) Éles bevezetéskor monitorozni kell a „nyelvi kockázatot”

Ha egy MI-rendszer leleteket vagy promptokat ért, akkor élesben is mérjetek:

  • tagadásos minták aránya,
  • hibák tĂ­pusai (hamis pozitĂ­v/negatĂ­v tagadás miatt),
  • osztályonkĂ©nti eltĂ©rĂ©s (SĂĽrgĹ‘ssĂ©gi vs. belgyĂłgyászat),
  • Ăşj formulák megjelenĂ©se (pl. helyi leletezĂ©si stĂ­lus).

A modellek nem csak „driftelnek” képekben. Driftelnek nyelvben is.

Gyors Q&A: amit a csapatok tényleg megkérdeznek

„Nem oldja meg ezt egy nagyobb LLM a lelet oldalon?”

Részben segíthet, de nem csodaszer. Ha a kép–szöveg illesztés alapja tagadásra vak, akkor egy utólagos szövegmodell maximum kozmetikáz. A megbízhatóság ott kezdődik, hogy a reprezentációs térben is különválik a tagadott és állított kórkép.

„Elég, ha a promptban nagybetűvel kiemelem a NEM-et?”

Nem. A tokenizálás és az embedding nem így működik; a modell nem „figyel oda” jobban csak azért, mert mi tipográfiával kiabálunk. Célzott tanítás és célzott teszt kell.

„Mi a legjobb első lépés, ha már van CLIP-alapú prototípusom?”

Én a következőt csinálnám: készítenék 50–100 tagadásos promptpárt a leggyakoribb mellkasi kórképekre (pangás, effúzió, pneumothorax, consolidatio, cardiomegalia), és megnézném, mennyit romlik a teljesítmény a pozitívokhoz képest. Ha nagy az eltérés, a rendszer még nincs kész klinikai környezetre.

Mit vigyünk magunkkal ebből a kutatásból?

A Vu–Sheshappanavar-féle tanulmány üzenete számomra egyszerű: az orvosi képalkotásban az MI megbízhatósága nem csak a képen múlik, hanem a nyelven is. A tagadás pedig a leggyorsabb stressztesztje annak, hogy a modell valóban érti-e a klinikai jelentést, vagy csak kulcsszavakat párosít.

Ha a cél diagnózistámogatás, oktatási visszakeresés vagy lelet–kép összerendezés, akkor 2026 felé haladva egyre inkább az nyer, aki:

  • klinikailag releváns nyelvi jelensĂ©gekre (tagadás, bizonytalanság, kontextus) tanĂ­t,
  • kĂĽlön mĂ©ri Ă©s dokumentálja ezeket,
  • Ă©s nem szĂ©gyelli kimondani: a modell ott jĂł, ahol teszteltĂĽk, Ă©s ott bizonytalan, ahol mĂ©g nem.

Ha a saját szervezetetekben képalkotó MI-bevezetésen gondolkodtok, én szívesen segítek egy tagadás-fókuszú validációs terv vagy promptkészlet összeállításában. A végén úgyis az számít, hogy a rendszer ugyanúgy érti-e a „nem”-et, mint a radiológus.