Mesterséges intelligencia az egészségügyben•2025. december 22.•By 3L3C

A CLIP-alapú orvosi MI gyakran félreérti a tagadást. Megmutatjuk, miért veszélyes ez, és hogyan teszteld, finomhangold, monitorozd.

orvosi MIradiológiamellkasröntgenCLIPvalidációkép-szöveg modellekbetegbiztonság

Featured image for MI az orvosi képalkotásban: a „nem” csapdája

MI az orvosi képalkotásban: a „nem” csapdája

Egy mellkasröntgen-leletben egyetlen szó képes teljesen megfordítani a jelentést: „nem”. „Nincs pneumothorax.” „Nem látható pleuralis folyadék.” A radiológiai nyelv tele van tagadással, mert a klinikai döntés szempontjából legalább annyira fontos, mi nincs ott, mint az, hogy mi van ott.

És itt jön a kellemetlen rész: a nagy kép–szöveg modellek (például a CLIP-alapú rendszerek), amelyeket sokan örömmel vetnének be képkiválasztásra, leletgenerálásra vagy diagnózistámogatásra, meglepően könnyen félreértik a tagadást. A 2025.12.18-án arXivra feltöltött friss tanulmány („The Effect of Negation on CLIP in Medical Imaging”) pont ezt a gyenge pontot boncolgatja: mi történik, amikor a modellnek olyan prompttal kell dolgoznia, amiben a kulcsszó előtt ott áll a „no/not”.

A „Mesterséges intelligencia az egészségügyben” sorozatban én azt látom a legfontosabbnak, hogy ne csak azt kérdezzük: „mire képes az MI?”, hanem azt is: „hol hibázik kiszámíthatóan, és hogyan tesszük klinikailag megbízhatóbbá?” A tagadás értése tipikusan ilyen „apró” részlet, ami a valóságban óriási.

Miért kritikus a tagadás a radiológiában?

A tagadás a radiológiai kommunikáció gerince. A leletek döntő része kizárásokat tartalmaz, mert a beutaló kérdése gyakran így hangzik: „van-e tüdőgyulladás?”, „látható-e pneumothorax?”, „van-e pangás?”. A válasz pedig sokszor: „nem”.

A „nem” klinikai kockázata: pont az ellenkezőjét jelenti

Ha egy MI-rendszer a „nincs pneumothorax” kifejezést összemossa a „pneumothorax” jelenlétével, akkor két rossz út van:

Hamis pozitív: felesleges riasztás, felesleges CT, felesleges konzílium, plusz stressz.
Hamis negatív (a másik irányban): elmaradó riasztás, későn észlelt állapot, betegbiztonsági kockázat.

A probléma azért alattomos, mert felületes metrikákkal könnyű elrejteni. Egy modell összteljesítménye jónak tűnhet, miközben pont a tagadásos esetekben csúszik meg – márpedig ezek a mindennapok.

Miért nem „nyelvtani apróság”?

A radiológiai tagadás nem csak a „nem” szó. Gyakoriak az olyan szerkezetek, mint:

„… nem valószínű”
„… nem zárható ki”
„… nélkül”
„… negatív”
„… nincs egyértelmű jele”

Ezek között vannak erős kizárások és óvatos, bizonytalanságot jelző formulák. Egy klinikai környezetben a modellnek árnyalatokat kellene értenie, nem csak kulcsszavakat.

Miért botlik meg a CLIP a tagadáson?

A CLIP logikája egyszerű: megtanulja, hogy egy kép és egy szöveg „összetartozik-e” (kontrasztív tanulás), jellemzően úgy, hogy sok kép–felirat párt lát. Ez remek olyan helyzetekben, ahol a szöveg pozitív állítás: „pneumonia”, „pleural effusion”.

A gond az, hogy a tagadás sokszor nem jelent vizuálisan új mintát. A „nincs pleuralis folyadék” tipikusan azt jelenti: „a kép normális ebből a szempontból”. A modell viszont könnyen rááll arra a heurisztikára, hogy ha a szövegben szerepel a „pleural effusion” kifejezés, akkor a hozzá tartozó képek legyenek azok, ahol van folyadék. A „no” token hatása eltörpül a nagy, domináns klinikai kulcsszó mellett.

Snippet-mondat, amit érdemes megjegyezni: A kontrasztív kép–szöveg tanulás gyakran „kulcsszó-egyezésre” egyszerűsíti a nyelvet, és a tagadás ezt azonnal leleplezi.

A tanulmány fókusza: CheXagent és tagadásos promptok

A friss munka a Stanford AIMI által publikált CheXagent modellt vizsgálja egy nagyon konkrét feladaton: mellkasröntgen képek visszakeresése (image retrieval) olyan szöveges promptokra, amelyek tagadást tartalmaznak, illetve nem tartalmaznak.

A szerzők nem álltak meg annál, hogy „rossz a pontosság”. Megnézték, mi történik a modellen belül:

token-attribúció (mely szavak számítanak a döntésben),
t-SNE projekció (hogyan rendeződnek a reprezentációk),
attention head ablation (mely figyelmi fejek kritikusak).

Ez a három együtt azért hasznos, mert nem csak a tünetet látjuk, hanem közelebb kerülünk az okhoz: a szöveg-enkóder hogyan „érzi” a tagadást.

Mit mutatnak az eredmények, és miért fontos a trade-off?

A szerzők azt találták, hogy finomhangolással javítható a tagadás kezelése, viszont enyhe visszaesés jöhet a pozitív promptok pontosságában. Ez a rész szerintem kulcs: a klinikai MI-ben ritkán van „ingyen ebéd”.

A „kicsit rosszabb lett a pozitívokon” valójában tervezési döntés

Ha egy rendszer eddig szuper volt abban, hogy a „pneumothorax” prompttal pneumothoraxos képeket talál, de cserébe a „nincs pneumothorax” esetben rossz képeket hoz, akkor a modell kiszámíthatatlan. Egy diagnózistámogató vagy QA-eszköz esetén én inkább választok olyan modellt, amely:

kissé kevésbé agresszív a pozitív találatokban,
viszont stabilan különválasztja a tagadott és állított kórképeket.

Ez tipikusan betegbiztonsági kérdés. A tagadás hibája nem „edge case”, hanem mindennapi.

Miért segít a belső viselkedés vizsgálata?

A token-attribúció és az attention vizsgálatok gyakorlati előnye, hogy:

megmutatják, a „no/not” token ténylegesen kap-e súlyt,
kiderül, hogy a finomhangolás a reprezentációs térben szétválasztja-e a „pneumothorax” és „no pneumothorax” szövegeket,
azonosítható, hogy bizonyos figyelmi fejek „felelősek-e” a tagadás kezeléséért.

Ez azért értékes, mert a klinikai validáció során nem elég annyi, hogy „átment a teszten”. A cél a magyarázhatóság és kontrollálhatóság: ha tudom, hol romlik el, tudom, mit monitorozzak élesben.

Gyakorlati tanulságok: hogyan tervezzünk megbízhatóbb kép–szöveg MI-t?

A tagadás kezelése nem utólagos kozmetika, hanem adat- és teszttervezési feladat. Ha a szervezetetek (kórház, teleradiológia, medtech cég) CLIP-szerű modellt használ vagy tervez használni, ezek a lépések működnek a gyakorlatban.

1) Tegyétek kötelezővé a tagadásos tesztkészletet

A validációs csomagban külön blokkot érdemes fenntartani:

pozitív állítások (pl. „pleuralis folyadék”),
explicit tagadások (pl. „nincs pleuralis folyadék”),
bizonytalanság (pl. „nem zárható ki pleuralis folyadék”),
kettős állítások (pl. „pangás nincs, atelectasia megfigyelhető”).

A minimum, amit elvárok: külön riportolt metrikák tagadásra. Ne legyen elrejtve az átlagban.

2) Ne csak angol sablonokban gondolkodjatok

Magyar klinikai környezetben a nyelv más. A „nem igazolható” vagy a „nem ábrázolódik” gyakori. Ha magyar nyelvű leletekkel dolgoztok, kell:

magyar promptkészlet,
magyar leletnyelv tipikus fordulatai,
szinonimák és rövidítések kezelése.

Aki ezt kihagyja, az valójában nem a magyar egészségügyre fejleszt, hanem egy demo-t épít.

3) Finomhangolásnál célzott „kontrasztpárok” kellenek

A tagadás tanításának egyik leghatékonyabb módja az, ha a modell nagyon közeli szövegpárokat lát, amelyek csak egy tagadó elemben különböznek, és a képek ennek megfelelően változnak.

Példa pár:

„pneumothorax látható” ↔ „pneumothorax nem látható”

Itt a modell kénytelen megtanulni, hogy a különbség nem dísz, hanem jelentés.

4) Külön kezeljétek a retrievalt és a diagnózist

A tanulmány retrievalről szól, de sok csapat innen ugrik diagnózisra. Én óvatos lennék: a „jó visszakeresés” nem egyenlő a „jó diagnózis”.

A retrieval akkor hasznos, ha:

hasonló eseteket keresünk oktatáshoz,
QA célra példákat gyűjtünk,
radiológus munkáját támogatjuk referenciaképekkel.

Diagnózisnál viszont más a felelősség, más a szabályozás, és több a csapda (adateltolódás, protokollkülönbség, eszközpark).

5) Éles bevezetéskor monitorozni kell a „nyelvi kockázatot”

Ha egy MI-rendszer leleteket vagy promptokat ért, akkor élesben is mérjetek:

tagadásos minták aránya,
hibák típusai (hamis pozitív/negatív tagadás miatt),
osztályonkénti eltérés (Sürgősségi vs. belgyógyászat),
új formulák megjelenése (pl. helyi leletezési stílus).

A modellek nem csak „driftelnek” képekben. Driftelnek nyelvben is.

Gyors Q&A: amit a csapatok tényleg megkérdeznek

„Nem oldja meg ezt egy nagyobb LLM a lelet oldalon?”

Részben segíthet, de nem csodaszer. Ha a kép–szöveg illesztés alapja tagadásra vak, akkor egy utólagos szövegmodell maximum kozmetikáz. A megbízhatóság ott kezdődik, hogy a reprezentációs térben is különválik a tagadott és állított kórkép.

„Elég, ha a promptban nagybetűvel kiemelem a NEM-et?”

Nem. A tokenizálás és az embedding nem így működik; a modell nem „figyel oda” jobban csak azért, mert mi tipográfiával kiabálunk. Célzott tanítás és célzott teszt kell.

„Mi a legjobb első lépés, ha már van CLIP-alapú prototípusom?”

Én a következőt csinálnám: készítenék 50–100 tagadásos promptpárt a leggyakoribb mellkasi kórképekre (pangás, effúzió, pneumothorax, consolidatio, cardiomegalia), és megnézném, mennyit romlik a teljesítmény a pozitívokhoz képest. Ha nagy az eltérés, a rendszer még nincs kész klinikai környezetre.

Mit vigyünk magunkkal ebből a kutatásból?

A Vu–Sheshappanavar-féle tanulmány üzenete számomra egyszerű: az orvosi képalkotásban az MI megbízhatósága nem csak a képen múlik, hanem a nyelven is. A tagadás pedig a leggyorsabb stressztesztje annak, hogy a modell valóban érti-e a klinikai jelentést, vagy csak kulcsszavakat párosít.

Ha a cél diagnózistámogatás, oktatási visszakeresés vagy lelet–kép összerendezés, akkor 2026 felé haladva egyre inkább az nyer, aki:

klinikailag releváns nyelvi jelenségekre (tagadás, bizonytalanság, kontextus) tanít,
külön méri és dokumentálja ezeket,
és nem szégyelli kimondani: a modell ott jó, ahol teszteltük, és ott bizonytalan, ahol még nem.

Ha a saját szervezetetekben képalkotó MI-bevezetésen gondolkodtok, én szívesen segítek egy tagadás-fókuszú validációs terv vagy promptkészlet összeállításában. A végén úgyis az számít, hogy a rendszer ugyanúgy érti-e a „nem”-et, mint a radiológus.