A hiányzó adatok pótlása torzíthatja az orvosi AI magyarázatait. Mutatjuk, miért ad reálisabb bizonytalanságot a többszörös imputálás.

Hiányzó adatok az orvosi AI-ban: a magyarázat is tévedhet
A kórházi adatbázisokban a hiányzó érték nem kivétel, hanem alapszituáció. Laboreredmény elmarad, anamnézis hiányos, egy képalkotó leletből kimarad egy mező, a triázsban pedig sietnek. A gond az, hogy amikor mesterséges intelligenciát (AI) építünk diagnózistámogatásra, a hiányzó adatot szinte mindig „pótoljuk” valahogy – és utána úgy teszünk, mintha az így keletkező magyarázatok (miért ezt a döntést hozta a modell) kőbe lennének vésve.
A friss kutatási üzenet 2025 végéről nagyon józan: az imputálás (hiányzó adatok pótlása) bizonytalansága torzíthatja az értelmezhető gépi tanulási (IML) módszerek megbízhatóságát, különösen akkor, amikor konfidenciaintervallumokat és „bizonyosságot” szeretnénk mondani a magyarázatok mellé. A tanulság az egészségügyben különösen fájdalmasan aktuális: ha az AI-val klinikai döntést támogatunk, a „modell magyarázata” gyakran legalább annyira fontos, mint maga a predikció.
Miért kritikus a hiányzó adat az egészségügyi AI-ban?
Válasz először: azért, mert az egészségügyi adatokban a hiány nem véletlen, és ettől az AI magyarázatai félrecsúszhatnak.
Az EESZT-s jellegű, valós életből származó adatoknál a hiányzás okai tipikusan rendszerszintűek:
- Nem minden vizsgálatot rendelnek meg (költség, protokoll, ügyeleti kapacitás).
- A hiányzás összefügghet az állapot súlyosságával (például instabil beteg, nincs idő bizonyos laborokra).
- Intézmények között eltérő dokumentációs szokások vannak.
- Betegút-töredezettség: ami máshol készült, nem kerül be.
Ez azért fontos, mert ha a hiányzás „információt hordoz”, akkor a pótlás módszere és az ebből fakadó bizonytalanság nem csak a pontosságot, hanem a modell értelmezését is befolyásolja. Egy klinikus nem csak azt kérdezi: „Mit jósol a modell?”, hanem azt is: „Miért?” és „Mennyire bízhatok ebben?”
Imputálás röviden, emberi nyelven
Imputálásnál a hiányzó értéket egy szabály vagy modell alapján pótoljuk. A legegyszerűbb a szimpla imputálás (például mediánnal, átlaggal, leggyakoribb kategóriával), de létezik fejlettebb megközelítés is (például regressziós, kNN, random forest alapú). A lényeg: az imputált érték nem tény, hanem becslés.
Mit mond a 2025-ös kutatás: nem elég a „jó” imputálás
Válasz először: a szimpla imputálás jellemzően alulbecsüli a magyarázatok szórását, emiatt a konfidenciaintervallumok túl optimisták; a többszörös imputálás többnyire közelebb visz a valós lefedettséghez.
A Golchian–Wright (2025) arXiv cikk azt vizsgálja, hogyan hat a különböző imputálási módszer az IML eszközök bizonytalanságára, konkrétan a konfidenciaintervallumok lefödési valószínűségére (coverage). A vizsgált IML módszerek:
- Permutációs változófontosság (Permutation Feature Importance, PFI)
- Parciális függőségi ábrák (Partial Dependence Plot, PDP)
- Shapley-értékek (SHAP logikájú hozzájárulások)
A fő állítás, amit érdemes észben tartani egészségügyi projektnél:
Ha egyszer imputálsz, majd úgy számolsz bizonytalanságot, mintha az imputált érték „igazi” lenne, akkor a magyarázatod túl magabiztos lesz.
Mit jelent a „lefödés” a gyakorlatban?
Ha egy módszer 95%-os konfidenciaintervallumot ígér, akkor ideálisan sok ismétlés esetén az intervallumok kb. 95%-a tartalmazza a „valódi” értéket. A cikk üzenete: szimpla imputálás mellett ez gyakran nem teljesül, mert a plusz bizonytalanság (hogy mivel pótoltuk) kiesik a számításból.
Egészségügyben ez nem statisztikai finnyásság. Ez a különbség aközött, hogy:
- „A kreatinin fontos prediktor, és ebben elég biztosak vagyunk.”
- vs. „A kreatinin fontosnak látszik, de a hiányzó laborok pótlása miatt ez a következtetés bizonytalan.”
Hogyan csúszik félre a modellmagyarázat szimpla imputálásnál?
Válasz először: a szimpla imputálás „túl sima” adatot gyárt, ezért a magyarázó módszerek kisebb ingadozást látnak, mint ami valójában létezik.
1) Permutációs változófontosság (PFI)
A PFI azt méri, mennyit romlik a modell teljesítménye, ha egy változó értékeit összekeverjük. Ha egy változó sokszor hiányzik, és mi mediánnal pótoljuk, akkor a változó mesterségesen homogenizálódik. Ilyenkor a permutálás hatása is torzulhat, és a bizonytalanságbecslés túl szűk lesz.
Egészségügyi példa: sürgősségin a laktát csak a gyanús esetekben készül el. Ha a hiányzó laktátokat mediánnal pótoljuk, a PFI könnyen azt sugallhatja, hogy a laktát „stabilan közepesen fontos” – miközben a valóság az, hogy a laktát információtartalma a mintavételi szabály miatt teljesen más struktúrát követ.
2) Parciális függőségi ábra (PDP)
A PDP „átlagos” hatást mutat: hogyan változik a predikció, ha egy változót végigpásztázunk, a többit átlagolva. Imputálásnál két baj jön:
- Az imputált értékek eltolhatják az átlagot.
- A hiányból fakadó bizonytalanság eltűnik, így a PDP túl határozott görbét ad.
Egészségügyi példa: HbA1c hiányos diabetológiai adatban. Ha egyszer imputálunk, a PDP görbéje szépen „megmondja”, hol törik a rizikó. Többszörös imputálásnál viszont kiderülhet, hogy a töréspont bizonytalan, és klinikailag nem érdemes rá szabályt építeni.
3) Shapley / SHAP jellegű magyarázatok
A Shapley-értékek egyedi szinten mondják meg, melyik változó mennyit tett hozzá a döntéshez. Ha a betegre jellemző kulcsváltozó hiányzik, és egyszer pótoljuk, akkor pont egy beteg szintjén lehet nagyon félrevezető a magyarázat.
Snippetszerű mondat, amit én sokszor látok projektekben:
„A modell szerint ennél a betegnél a CRP volt a fő ok.”
Ha a CRP valójában hiányzott és imputált, akkor a helyes mondat inkább:
„A jelenlegi imputálási feltételezés mellett a CRP fő tényezőnek látszik, de ez a rangsor változhat.”
Többszörös imputálás: több munka, több őszinteség
Válasz először: a többszörös imputálás (MI) nem varázslat, de beemeli a bizonytalanságot a magyarázatokba, ezért a konfidenciaintervallumok sokszor reálisabbak.
A többszörös imputálás lényege: nem egy „pótolt” adatbázist készítünk, hanem mondjuk m = 5–20 különbözőt, ésszerűen eltérő imputált értékekkel. Ezután:
- Mindegyiken lefuttatjuk a modellt és/vagy a magyarázatot (PFI/PDP/SHAP).
- Az eredményeket összevonjuk úgy, hogy a szórás tartalmazza:
- a mintavételi bizonytalanságot
- és az imputálási bizonytalanságot
A kutatás fő üzenete ezzel összhangban: a szimpla imputálás alulbecsli a varianciát, míg a többszörös imputálás sok esetben közelíti a névleges lefedettséget.
Mikor érdemes MI-t bevezetni egészségügyi AI-ban?
Ha a modell döntéstámogatásra készül (nem csak kutatási pontosságverseny), én ezt a szabályt követem:
- Magyarázatot mutatsz klinikusnak? MI erősen ajánlott.
- Kockázati tényezők rangsorát publikálod? MI gyakorlatilag kötelező.
- Egyedi betegszintű SHAP riportot adsz? MI + bizonytalansági sávok nélkül szerintem túl merész.
Gyakorlati „recept” a megbízhatóbb modellmagyarázatokhoz
Válasz először: a cél nem az, hogy „egy szép SHAP ábrát” kapjunk, hanem hogy a magyarázat mellé becsült bizonytalanságot tegyünk, és ezt a klinikai kockázathoz igazítsuk.
1) Kezdd a hiányzási térképpel, ne a modellel
Mielőtt bármit imputálsz:
- Mely változók hiányoznak 10%+ arányban?
- Intézményenként/ osztályonként változik-e a hiány?
- Eseményhez kötött-e (például ICU felvétel előtt/után)?
Ebből gyakran kiderül, hogy a hiányzás nem véletlen, és emiatt a legegyszerűbb imputálás félrevisz.
2) Válassz imputálást a felhasználási eset szerint
- Operatív, valós idejű döntéstámogatásnál lehet, hogy kell egy gyors online stratégia.
- Auditálható klinikai AI-nál viszont én a MI-t preferálom, még ha drágább is.
3) Magyarázat = eloszlás, nem egy szám
Többszörös imputálás esetén a PFI/PDP/SHAP eredményekből készíts:
- mediánt vagy átlagot (központi tendencia)
- interkvartilis tartományt vagy 95% intervallumot (bizonytalanság)
A klinikusnak nem kell statisztikát tanítani, csak őszintén kommunikálni:
„Ezt a tényezőt a modell általában fontosnak látja, de az adathiány miatt a rangsor ingadozik.”
4) Állíts be „stop-szabályt” túl sok hiányra
Ha egy kulcsváltozó hiánya túl nagy (például 40–60%), akkor gyakran jobb:
- külön modellt készíteni más feature-készlettel, vagy
- kifejezetten a hiányzást is modellezni (indikátor), vagy
- klinikai folyamatot javítani (adatgyűjtés), mert ez sokszor olcsóbb, mint a bonyolult AI.
Gyakori kérdések, amik előjönnek egészségügyi csapatokban
„Nem elég, ha ugyanazzal az imputálással mindig ugyanazt kapjuk?”
Nem. Az, hogy determinisztikusan ugyanazt kapod, még nem jelenti, hogy helyes. A probléma pont az, hogy a szimpla imputálás elrejti a bizonytalanságot.
„A modell AUC-ja jó. Miért piszkáljuk a magyarázatot?”
Mert klinikai környezetben a bizalom és az elszámoltathatóság döntő. Egy jó AUC mellett is lehet félrevezető a változófontosság vagy a betegszintű magyarázat.
„A többszörös imputálás túl lassú.”
Néha igen, de többnyire kezelhető. Tipikus kompromisszumok:
- kevesebb imputált dataset (például m=5) pilotban
- magyarázatot számolni MI-vel, predikciót gyorsabb stratégiával
- ritkábban frissített, „audit” jellegű magyarázó riportok
Mit jelent ez a „Mesterséges intelligencia az egészségügyben” sorozat szempontjából?
Az orvosi képalkotás, a diagnózistámogatás és a kórházi működésoptimalizálás mind ugyanabba a falba ütközik: valós, zajos, hiányos adatokból kell megbízható rendszert építeni. Szerintem 2026-ban azok a csapatok lesznek előnyben, akik nem csak „pontos modellt” tudnak felmutatni, hanem olyan magyarázatot is, ami őszintén kezeli a bizonytalanságot.
Ha leadet gyűjtesz klinikai AI projektre, ez egy nagyon konkrét beszélgetésindító: meg tudod-e mutatni a döntéshozóknak, hogy a modellmagyarázatok mennyire stabilak különböző imputálási feltételezések mellett?
A megbízható egészségügyi AI nem attól lesz hiteles, hogy mindig magabiztos, hanem attól, hogy tudja, mikor bizonytalan.
A következő lépés, amit én javaslok: válassz egy meglévő modellt (akár képalkotó + klinikai adatok, akár tisztán EHR), és készíts egy „magyarázat-stabilitási auditot” többszörös imputálással. Mennyi a változófontosság rangsorának szórása? Mennyire mozognak a PDP görbék? Hány betegnél változik a top-3 SHAP tényező?
Ha ezekre a kérdésekre konkrét számokkal válaszolsz, a klinikai bizalom már nem marketingüzenet lesz, hanem mérhető műszaki tulajdonság. Mit auditálnál először: egy triázs modellt, egy radiológiai prioritizálót, vagy egy újrafelvételi kockázatbecslőt?