Hiányzó adatok az orvosi AI-ban: a magyarázat is tévedhet

Mesterséges intelligencia az egészségügybenBy 3L3C

A hiányzó adatok pótlása torzíthatja az orvosi AI magyarázatait. Mutatjuk, miért ad reálisabb bizonytalanságot a többszörös imputálás.

hiányzó adatokimputálásmagyarázható AISHAPegészségügyi adatokbizonytalanság
Share:

Featured image for Hiányzó adatok az orvosi AI-ban: a magyarázat is tévedhet

Hiányzó adatok az orvosi AI-ban: a magyarázat is tévedhet

A kórházi adatbázisokban a hiányzó érték nem kivétel, hanem alapszituáció. Laboreredmény elmarad, anamnézis hiányos, egy képalkotó leletből kimarad egy mező, a triázsban pedig sietnek. A gond az, hogy amikor mesterséges intelligenciát (AI) építünk diagnózistámogatásra, a hiányzó adatot szinte mindig „pótoljuk” valahogy – és utána úgy teszünk, mintha az így keletkező magyarázatok (miért ezt a döntést hozta a modell) kőbe lennének vésve.

A friss kutatási üzenet 2025 végéről nagyon józan: az imputálás (hiányzó adatok pótlása) bizonytalansága torzíthatja az értelmezhető gépi tanulási (IML) módszerek megbízhatóságát, különösen akkor, amikor konfidenciaintervallumokat és „bizonyosságot” szeretnénk mondani a magyarázatok mellé. A tanulság az egészségügyben különösen fájdalmasan aktuális: ha az AI-val klinikai döntést támogatunk, a „modell magyarázata” gyakran legalább annyira fontos, mint maga a predikció.

Miért kritikus a hiányzó adat az egészségügyi AI-ban?

Válasz először: azért, mert az egészségügyi adatokban a hiány nem véletlen, és ettől az AI magyarázatai félrecsúszhatnak.

Az EESZT-s jellegű, valós életből származó adatoknál a hiányzás okai tipikusan rendszerszintűek:

  • Nem minden vizsgálatot rendelnek meg (költség, protokoll, ügyeleti kapacitás).
  • A hiányzás összefügghet az állapot súlyosságával (például instabil beteg, nincs idő bizonyos laborokra).
  • Intézmények között eltérő dokumentációs szokások vannak.
  • Betegút-töredezettség: ami máshol készült, nem kerül be.

Ez azért fontos, mert ha a hiányzás „információt hordoz”, akkor a pótlás módszere és az ebből fakadó bizonytalanság nem csak a pontosságot, hanem a modell értelmezését is befolyásolja. Egy klinikus nem csak azt kérdezi: „Mit jósol a modell?”, hanem azt is: „Miért?” és „Mennyire bízhatok ebben?”

Imputálás röviden, emberi nyelven

Imputálásnál a hiányzó értéket egy szabály vagy modell alapján pótoljuk. A legegyszerűbb a szimpla imputálás (például mediánnal, átlaggal, leggyakoribb kategóriával), de létezik fejlettebb megközelítés is (például regressziós, kNN, random forest alapú). A lényeg: az imputált érték nem tény, hanem becslés.

Mit mond a 2025-ös kutatás: nem elég a „jó” imputálás

Válasz először: a szimpla imputálás jellemzően alulbecsüli a magyarázatok szórását, emiatt a konfidenciaintervallumok túl optimisták; a többszörös imputálás többnyire közelebb visz a valós lefedettséghez.

A Golchian–Wright (2025) arXiv cikk azt vizsgálja, hogyan hat a különböző imputálási módszer az IML eszközök bizonytalanságára, konkrétan a konfidenciaintervallumok lefödési valószínűségére (coverage). A vizsgált IML módszerek:

  • Permutációs változófontosság (Permutation Feature Importance, PFI)
  • Parciális függőségi ábrák (Partial Dependence Plot, PDP)
  • Shapley-értékek (SHAP logikájú hozzájárulások)

A fő állítás, amit érdemes észben tartani egészségügyi projektnél:

Ha egyszer imputálsz, majd úgy számolsz bizonytalanságot, mintha az imputált érték „igazi” lenne, akkor a magyarázatod túl magabiztos lesz.

Mit jelent a „lefödés” a gyakorlatban?

Ha egy módszer 95%-os konfidenciaintervallumot ígér, akkor ideálisan sok ismétlés esetén az intervallumok kb. 95%-a tartalmazza a „valódi” értéket. A cikk üzenete: szimpla imputálás mellett ez gyakran nem teljesül, mert a plusz bizonytalanság (hogy mivel pótoltuk) kiesik a számításból.

Egészségügyben ez nem statisztikai finnyásság. Ez a különbség aközött, hogy:

  • „A kreatinin fontos prediktor, és ebben elég biztosak vagyunk.”
  • vs. „A kreatinin fontosnak látszik, de a hiányzó laborok pótlása miatt ez a következtetés bizonytalan.”

Hogyan csúszik félre a modellmagyarázat szimpla imputálásnál?

Válasz először: a szimpla imputálás „túl sima” adatot gyárt, ezért a magyarázó módszerek kisebb ingadozást látnak, mint ami valójában létezik.

1) Permutációs változófontosság (PFI)

A PFI azt méri, mennyit romlik a modell teljesítménye, ha egy változó értékeit összekeverjük. Ha egy változó sokszor hiányzik, és mi mediánnal pótoljuk, akkor a változó mesterségesen homogenizálódik. Ilyenkor a permutálás hatása is torzulhat, és a bizonytalanságbecslés túl szűk lesz.

Egészségügyi példa: sürgősségin a laktát csak a gyanús esetekben készül el. Ha a hiányzó laktátokat mediánnal pótoljuk, a PFI könnyen azt sugallhatja, hogy a laktát „stabilan közepesen fontos” – miközben a valóság az, hogy a laktát információtartalma a mintavételi szabály miatt teljesen más struktúrát követ.

2) Parciális függőségi ábra (PDP)

A PDP „átlagos” hatást mutat: hogyan változik a predikció, ha egy változót végigpásztázunk, a többit átlagolva. Imputálásnál két baj jön:

  • Az imputált értékek eltolhatják az átlagot.
  • A hiányból fakadó bizonytalanság eltűnik, így a PDP túl határozott görbét ad.

Egészségügyi példa: HbA1c hiányos diabetológiai adatban. Ha egyszer imputálunk, a PDP görbéje szépen „megmondja”, hol törik a rizikó. Többszörös imputálásnál viszont kiderülhet, hogy a töréspont bizonytalan, és klinikailag nem érdemes rá szabályt építeni.

3) Shapley / SHAP jellegű magyarázatok

A Shapley-értékek egyedi szinten mondják meg, melyik változó mennyit tett hozzá a döntéshez. Ha a betegre jellemző kulcsváltozó hiányzik, és egyszer pótoljuk, akkor pont egy beteg szintjén lehet nagyon félrevezető a magyarázat.

Snippetszerű mondat, amit én sokszor látok projektekben:

„A modell szerint ennél a betegnél a CRP volt a fő ok.”

Ha a CRP valójában hiányzott és imputált, akkor a helyes mondat inkább:

„A jelenlegi imputálási feltételezés mellett a CRP fő tényezőnek látszik, de ez a rangsor változhat.”

Többszörös imputálás: több munka, több őszinteség

Válasz először: a többszörös imputálás (MI) nem varázslat, de beemeli a bizonytalanságot a magyarázatokba, ezért a konfidenciaintervallumok sokszor reálisabbak.

A többszörös imputálás lényege: nem egy „pótolt” adatbázist készítünk, hanem mondjuk m = 5–20 különbözőt, ésszerűen eltérő imputált értékekkel. Ezután:

  1. Mindegyiken lefuttatjuk a modellt és/vagy a magyarázatot (PFI/PDP/SHAP).
  2. Az eredményeket összevonjuk úgy, hogy a szórás tartalmazza:
    • a mintavételi bizonytalanságot
    • és az imputálási bizonytalanságot

A kutatás fő üzenete ezzel összhangban: a szimpla imputálás alulbecsli a varianciát, míg a többszörös imputálás sok esetben közelíti a névleges lefedettséget.

Mikor érdemes MI-t bevezetni egészségügyi AI-ban?

Ha a modell döntéstámogatásra készül (nem csak kutatási pontosságverseny), én ezt a szabályt követem:

  • Magyarázatot mutatsz klinikusnak? MI erősen ajánlott.
  • Kockázati tényezők rangsorát publikálod? MI gyakorlatilag kötelező.
  • Egyedi betegszintű SHAP riportot adsz? MI + bizonytalansági sávok nélkül szerintem túl merész.

Gyakorlati „recept” a megbízhatóbb modellmagyarázatokhoz

Válasz először: a cél nem az, hogy „egy szép SHAP ábrát” kapjunk, hanem hogy a magyarázat mellé becsült bizonytalanságot tegyünk, és ezt a klinikai kockázathoz igazítsuk.

1) Kezdd a hiányzási térképpel, ne a modellel

Mielőtt bármit imputálsz:

  • Mely változók hiányoznak 10%+ arányban?
  • Intézményenként/ osztályonként változik-e a hiány?
  • Eseményhez kötött-e (például ICU felvétel előtt/után)?

Ebből gyakran kiderül, hogy a hiányzás nem véletlen, és emiatt a legegyszerűbb imputálás félrevisz.

2) Válassz imputálást a felhasználási eset szerint

  • Operatív, valós idejű döntéstámogatásnál lehet, hogy kell egy gyors online stratégia.
  • Auditálható klinikai AI-nál viszont én a MI-t preferálom, még ha drágább is.

3) Magyarázat = eloszlás, nem egy szám

Többszörös imputálás esetén a PFI/PDP/SHAP eredményekből készíts:

  • mediánt vagy átlagot (központi tendencia)
  • interkvartilis tartományt vagy 95% intervallumot (bizonytalanság)

A klinikusnak nem kell statisztikát tanítani, csak őszintén kommunikálni:

„Ezt a tényezőt a modell általában fontosnak látja, de az adathiány miatt a rangsor ingadozik.”

4) Állíts be „stop-szabályt” túl sok hiányra

Ha egy kulcsváltozó hiánya túl nagy (például 40–60%), akkor gyakran jobb:

  • külön modellt készíteni más feature-készlettel, vagy
  • kifejezetten a hiányzást is modellezni (indikátor), vagy
  • klinikai folyamatot javítani (adatgyűjtés), mert ez sokszor olcsóbb, mint a bonyolult AI.

Gyakori kérdések, amik előjönnek egészségügyi csapatokban

„Nem elég, ha ugyanazzal az imputálással mindig ugyanazt kapjuk?”

Nem. Az, hogy determinisztikusan ugyanazt kapod, még nem jelenti, hogy helyes. A probléma pont az, hogy a szimpla imputálás elrejti a bizonytalanságot.

„A modell AUC-ja jó. Miért piszkáljuk a magyarázatot?”

Mert klinikai környezetben a bizalom és az elszámoltathatóság döntő. Egy jó AUC mellett is lehet félrevezető a változófontosság vagy a betegszintű magyarázat.

„A többszörös imputálás túl lassú.”

Néha igen, de többnyire kezelhető. Tipikus kompromisszumok:

  • kevesebb imputált dataset (például m=5) pilotban
  • magyarázatot számolni MI-vel, predikciót gyorsabb stratégiával
  • ritkábban frissített, „audit” jellegű magyarázó riportok

Mit jelent ez a „Mesterséges intelligencia az egészségügyben” sorozat szempontjából?

Az orvosi képalkotás, a diagnózistámogatás és a kórházi működésoptimalizálás mind ugyanabba a falba ütközik: valós, zajos, hiányos adatokból kell megbízható rendszert építeni. Szerintem 2026-ban azok a csapatok lesznek előnyben, akik nem csak „pontos modellt” tudnak felmutatni, hanem olyan magyarázatot is, ami őszintén kezeli a bizonytalanságot.

Ha leadet gyűjtesz klinikai AI projektre, ez egy nagyon konkrét beszélgetésindító: meg tudod-e mutatni a döntéshozóknak, hogy a modellmagyarázatok mennyire stabilak különböző imputálási feltételezések mellett?

A megbízható egészségügyi AI nem attól lesz hiteles, hogy mindig magabiztos, hanem attól, hogy tudja, mikor bizonytalan.

A következő lépés, amit én javaslok: válassz egy meglévő modellt (akár képalkotó + klinikai adatok, akár tisztán EHR), és készíts egy „magyarázat-stabilitási auditot” többszörös imputálással. Mennyi a változófontosság rangsorának szórása? Mennyire mozognak a PDP görbék? Hány betegnél változik a top-3 SHAP tényező?

Ha ezekre a kérdésekre konkrét számokkal válaszolsz, a klinikai bizalom már nem marketingüzenet lesz, hanem mérhető műszaki tulajdonság. Mit auditálnál először: egy triázs modellt, egy radiológiai prioritizálót, vagy egy újrafelvételi kockázatbecslőt?