A CLIP-alapú orvosi MI gyakran félreérti a tagadást. Megmutatjuk, miért veszélyes ez, és hogyan teszteld, finomhangold, monitorozd.

MI az orvosi képalkotásban: a „nem” csapdája
Egy mellkasröntgen-leletben egyetlen szó képes teljesen megfordítani a jelentést: „nem”. „Nincs pneumothorax.” „Nem látható pleuralis folyadék.” A radiológiai nyelv tele van tagadással, mert a klinikai döntés szempontjából legalább annyira fontos, mi nincs ott, mint az, hogy mi van ott.
És itt jön a kellemetlen rész: a nagy kép–szöveg modellek (például a CLIP-alapú rendszerek), amelyeket sokan örömmel vetnének be képkiválasztásra, leletgenerálásra vagy diagnózistámogatásra, meglepően könnyen félreértik a tagadást. A 2025.12.18-án arXivra feltöltött friss tanulmány („The Effect of Negation on CLIP in Medical Imaging”) pont ezt a gyenge pontot boncolgatja: mi történik, amikor a modellnek olyan prompttal kell dolgoznia, amiben a kulcsszó előtt ott áll a „no/not”.
A „Mesterséges intelligencia az egészségügyben” sorozatban én azt látom a legfontosabbnak, hogy ne csak azt kérdezzük: „mire képes az MI?”, hanem azt is: „hol hibázik kiszámíthatóan, és hogyan tesszük klinikailag megbízhatóbbá?” A tagadás értése tipikusan ilyen „apró” részlet, ami a valóságban óriási.
Miért kritikus a tagadás a radiológiában?
A tagadás a radiológiai kommunikáció gerince. A leletek döntő része kizárásokat tartalmaz, mert a beutaló kérdése gyakran így hangzik: „van-e tüdőgyulladás?”, „látható-e pneumothorax?”, „van-e pangás?”. A válasz pedig sokszor: „nem”.
A „nem” klinikai kockázata: pont az ellenkezőjét jelenti
Ha egy MI-rendszer a „nincs pneumothorax” kifejezést összemossa a „pneumothorax” jelenlétével, akkor két rossz út van:
- Hamis pozitív: felesleges riasztás, felesleges CT, felesleges konzílium, plusz stressz.
- Hamis negatív (a másik irányban): elmaradó riasztás, későn észlelt állapot, betegbiztonsági kockázat.
A probléma azért alattomos, mert felületes metrikákkal könnyű elrejteni. Egy modell összteljesítménye jónak tűnhet, miközben pont a tagadásos esetekben csúszik meg – márpedig ezek a mindennapok.
Miért nem „nyelvtani apróság”?
A radiológiai tagadás nem csak a „nem” szó. Gyakoriak az olyan szerkezetek, mint:
- „… nem valószínű”
- „… nem zárható ki”
- „… nélkül”
- „… negatív”
- „… nincs egyértelmű jele”
Ezek között vannak erős kizárások és óvatos, bizonytalanságot jelző formulák. Egy klinikai környezetben a modellnek árnyalatokat kellene értenie, nem csak kulcsszavakat.
Miért botlik meg a CLIP a tagadáson?
A CLIP logikája egyszerű: megtanulja, hogy egy kép és egy szöveg „összetartozik-e” (kontrasztív tanulás), jellemzően úgy, hogy sok kép–felirat párt lát. Ez remek olyan helyzetekben, ahol a szöveg pozitív állítás: „pneumonia”, „pleural effusion”.
A gond az, hogy a tagadás sokszor nem jelent vizuálisan új mintát. A „nincs pleuralis folyadék” tipikusan azt jelenti: „a kép normális ebből a szempontból”. A modell viszont könnyen rááll arra a heurisztikára, hogy ha a szövegben szerepel a „pleural effusion” kifejezés, akkor a hozzá tartozó képek legyenek azok, ahol van folyadék. A „no” token hatása eltörpül a nagy, domináns klinikai kulcsszó mellett.
Snippet-mondat, amit érdemes megjegyezni: A kontrasztív kép–szöveg tanulás gyakran „kulcsszó-egyezésre” egyszerűsíti a nyelvet, és a tagadás ezt azonnal leleplezi.
A tanulmány fókusza: CheXagent és tagadásos promptok
A friss munka a Stanford AIMI által publikált CheXagent modellt vizsgálja egy nagyon konkrét feladaton: mellkasröntgen képek visszakeresése (image retrieval) olyan szöveges promptokra, amelyek tagadást tartalmaznak, illetve nem tartalmaznak.
A szerzők nem álltak meg annál, hogy „rossz a pontosság”. Megnézték, mi történik a modellen belül:
- token-attribúció (mely szavak számítanak a döntésben),
- t-SNE projekció (hogyan rendeződnek a reprezentációk),
- attention head ablation (mely figyelmi fejek kritikusak).
Ez a három együtt azért hasznos, mert nem csak a tünetet látjuk, hanem közelebb kerülünk az okhoz: a szöveg-enkóder hogyan „érzi” a tagadást.
Mit mutatnak az eredmények, és miért fontos a trade-off?
A szerzők azt találták, hogy finomhangolással javítható a tagadás kezelése, viszont enyhe visszaesés jöhet a pozitív promptok pontosságában. Ez a rész szerintem kulcs: a klinikai MI-ben ritkán van „ingyen ebéd”.
A „kicsit rosszabb lett a pozitívokon” valójában tervezési döntés
Ha egy rendszer eddig szuper volt abban, hogy a „pneumothorax” prompttal pneumothoraxos képeket talál, de cserébe a „nincs pneumothorax” esetben rossz képeket hoz, akkor a modell kiszámíthatatlan. Egy diagnózistámogató vagy QA-eszköz esetén én inkább választok olyan modellt, amely:
- kissé kevésbé agresszív a pozitív találatokban,
- viszont stabilan különválasztja a tagadott és állított kórképeket.
Ez tipikusan betegbiztonsági kérdés. A tagadás hibája nem „edge case”, hanem mindennapi.
Miért segít a belső viselkedés vizsgálata?
A token-attribúció és az attention vizsgálatok gyakorlati előnye, hogy:
- megmutatják, a „no/not” token ténylegesen kap-e súlyt,
- kiderül, hogy a finomhangolás a reprezentációs térben szétválasztja-e a „pneumothorax” és „no pneumothorax” szövegeket,
- azonosítható, hogy bizonyos figyelmi fejek „felelősek-e” a tagadás kezeléséért.
Ez azért értékes, mert a klinikai validáció során nem elég annyi, hogy „átment a teszten”. A cél a magyarázhatóság és kontrollálhatóság: ha tudom, hol romlik el, tudom, mit monitorozzak élesben.
Gyakorlati tanulságok: hogyan tervezzünk megbízhatóbb kép–szöveg MI-t?
A tagadás kezelése nem utólagos kozmetika, hanem adat- és teszttervezési feladat. Ha a szervezetetek (kórház, teleradiológia, medtech cég) CLIP-szerű modellt használ vagy tervez használni, ezek a lépések működnek a gyakorlatban.
1) Tegyétek kötelezővé a tagadásos tesztkészletet
A validációs csomagban külön blokkot érdemes fenntartani:
- pozitív állítások (pl. „pleuralis folyadék”),
- explicit tagadások (pl. „nincs pleuralis folyadék”),
- bizonytalanság (pl. „nem zárható ki pleuralis folyadék”),
- kettős állítások (pl. „pangás nincs, atelectasia megfigyelhető”).
A minimum, amit elvárok: külön riportolt metrikák tagadásra. Ne legyen elrejtve az átlagban.
2) Ne csak angol sablonokban gondolkodjatok
Magyar klinikai környezetben a nyelv más. A „nem igazolható” vagy a „nem ábrázolódik” gyakori. Ha magyar nyelvű leletekkel dolgoztok, kell:
- magyar promptkészlet,
- magyar leletnyelv tipikus fordulatai,
- szinonimák és rövidítések kezelése.
Aki ezt kihagyja, az valójában nem a magyar egészségügyre fejleszt, hanem egy demo-t épít.
3) Finomhangolásnál célzott „kontrasztpárok” kellenek
A tagadás tanításának egyik leghatékonyabb módja az, ha a modell nagyon közeli szövegpárokat lát, amelyek csak egy tagadó elemben különböznek, és a képek ennek megfelelően változnak.
Példa pár:
- „pneumothorax látható” ↔ „pneumothorax nem látható”
Itt a modell kénytelen megtanulni, hogy a különbség nem dísz, hanem jelentés.
4) Külön kezeljétek a retrievalt és a diagnózist
A tanulmány retrievalről szól, de sok csapat innen ugrik diagnózisra. Én óvatos lennék: a „jó visszakeresés” nem egyenlő a „jó diagnózis”.
A retrieval akkor hasznos, ha:
- hasonló eseteket keresünk oktatáshoz,
- QA célra példákat gyűjtünk,
- radiológus munkáját támogatjuk referenciaképekkel.
Diagnózisnál viszont más a felelősség, más a szabályozás, és több a csapda (adateltolódás, protokollkülönbség, eszközpark).
5) Éles bevezetéskor monitorozni kell a „nyelvi kockázatot”
Ha egy MI-rendszer leleteket vagy promptokat ért, akkor élesben is mérjetek:
- tagadásos minták aránya,
- hibák típusai (hamis pozitív/negatív tagadás miatt),
- osztályonkénti eltérés (Sürgősségi vs. belgyógyászat),
- új formulák megjelenése (pl. helyi leletezési stílus).
A modellek nem csak „driftelnek” képekben. Driftelnek nyelvben is.
Gyors Q&A: amit a csapatok tényleg megkérdeznek
„Nem oldja meg ezt egy nagyobb LLM a lelet oldalon?”
Részben segíthet, de nem csodaszer. Ha a kép–szöveg illesztés alapja tagadásra vak, akkor egy utólagos szövegmodell maximum kozmetikáz. A megbízhatóság ott kezdődik, hogy a reprezentációs térben is különválik a tagadott és állított kórkép.
„Elég, ha a promptban nagybetűvel kiemelem a NEM-et?”
Nem. A tokenizálás és az embedding nem így működik; a modell nem „figyel oda” jobban csak azért, mert mi tipográfiával kiabálunk. Célzott tanítás és célzott teszt kell.
„Mi a legjobb első lépés, ha már van CLIP-alapú prototípusom?”
Én a következőt csinálnám: készítenék 50–100 tagadásos promptpárt a leggyakoribb mellkasi kórképekre (pangás, effúzió, pneumothorax, consolidatio, cardiomegalia), és megnézném, mennyit romlik a teljesítmény a pozitívokhoz képest. Ha nagy az eltérés, a rendszer még nincs kész klinikai környezetre.
Mit vigyünk magunkkal ebből a kutatásból?
A Vu–Sheshappanavar-féle tanulmány üzenete számomra egyszerű: az orvosi képalkotásban az MI megbízhatósága nem csak a képen múlik, hanem a nyelven is. A tagadás pedig a leggyorsabb stressztesztje annak, hogy a modell valóban érti-e a klinikai jelentést, vagy csak kulcsszavakat párosít.
Ha a cél diagnózistámogatás, oktatási visszakeresés vagy lelet–kép összerendezés, akkor 2026 felé haladva egyre inkább az nyer, aki:
- klinikailag releváns nyelvi jelenségekre (tagadás, bizonytalanság, kontextus) tanít,
- külön méri és dokumentálja ezeket,
- és nem szégyelli kimondani: a modell ott jó, ahol teszteltük, és ott bizonytalan, ahol még nem.
Ha a saját szervezetetekben képalkotó MI-bevezetésen gondolkodtok, én szívesen segítek egy tagadás-fókuszú validációs terv vagy promptkészlet összeállításában. A végén úgyis az számít, hogy a rendszer ugyanúgy érti-e a „nem”-et, mint a radiológus.