Mesterséges intelligencia a pénzügyi és banki szektorban•2025. december 22.•By 3L3C

Okozati adatfúzió pruninggal és clusteringgel: kisebb gráf, gyorsabb azonosíthatóság, jobb döntések egészségügyben és banki AI-projektekben.

okozati következtetésadatfúzióegészségügyi AIbanki analitikado-kalkulusadatmodellezés

Featured image for Okozati adatfúzió: pruning és clustering a gyakorlatban

Okozati adatfúzió: pruning és clustering a gyakorlatban

A legtöbb adatvezérelt projekt ott csúszik el, hogy összekeveri a korrelációt az ok-okozattal. Ez a pénzügyi és banki szektorban ismerős: egy modell „jól jósol”, mégis rossz döntéseket támogat, mert nem azt válaszolja meg, hogy mi fog történni, ha beavatkozunk (például változtatunk a hitelbírálati szabályon), hanem csak azt, hogy mi szokott együtt járni valamivel.

Ugyanez a probléma az egészségügyben még élesebb. Egy triázs-szabály, egy szűrőprogram, egy terápiás protokoll módosítása: mind beavatkozás. Ilyenkor nem elég a mintázatfelismerés; okozati hatást akarunk. A friss arXiv-tanulmány (Tabell–Tikka–Karvanen, 2025.12.19-es verzió) pont erre ad egy praktikus választ: hogyan lehet az okozati adatfúziót (observációs + kísérleti adatok összerakását) könnyebben számolhatóvá tenni két előfeldolgozó lépéssel: pruninggal (felesleges változók elhagyása) és clusteringgel (változók összevonása).

A bejegyzés a „Mesterséges intelligencia a pénzügyi és banki szektorban” sorozat része, de végig az egészségügyi kampány-szöget tartom szem előtt: jobb döntés, jobb diagnosztika, okosabb adat-integráció. A trükk az, hogy a két iparág ugyanazzal a problémával küzd: sok forrásból jövő, hiányos, eltérő definíciójú adatokból kell beavatkozásokra vonatkozó, megbízható következtetést levonni.

Mi az okozati adatfúzió, és miért számít az egészségügyben?

Az okozati adatfúzió lényege: több adatforrást (például kórházi EHR-adatokat, regisztereket, klinikai vizsgálatokat, pilot-projekteket) úgy kombinálunk, hogy azonosíthatóvá váljon egy okozati hatás, amit egyetlen forrásból nem tudnánk korrektül becsülni.

Egészségügyi példa (tipikus decemberi szezonban különösen aktuális): sürgősségi osztályon nő a terhelés, és felmerül egy új triázs-algoritmus bevezetése. Lehet, hogy van:

Observációs adat (mi történt eddig a régi folyamattal),
és van kísérleti/pilot adat (egy-két osztályon kipróbálták az újat, de nem minden változót mértek ugyanúgy).

Az adatfúzió célja ilyenkor nem az, hogy „tippeljünk”, hanem hogy válaszoljunk a beavatkozásra:

„Mi lenne az átlagos várakozási idő, ha holnaptól mindenhol az új triázs-szabályt használnánk?”

A gond az, hogy a több forrásból épített oksági gráf (okozati diagram) gyorsan óriásira nő. És itt jön a papír fő üzenete: csökkentsük a modellt okosan, mielőtt számolni kezdünk.

Miért nehéz ez do-kalkulussal?

A do-kalkulus a legáltalánosabb eszköz az okozati azonosíthatóság vizsgálatára adatfúzióban, főleg akkor, ha egyes változók csak bizonyos forrásokban vannak jelen. Csakhogy a do-kalkulus alapú eljárások komputációsan megterhelők, amikor:

sok a változó,
sok a kapcsolat,
több adatforrást kell összehangolni,
és a hiányosságok nem véletlenszerűek.

A valóságban ez a tipikus kórházi helyzet. És a banki világban is: több csatorna, több rendszer, eltérő attribútumok, időben változó szabályok.

Pruning: mikor érdemes tényleg elhagyni változókat?

A pruning itt nem „feature selection” a klasszikus ML-értelemben. Nem arról szól, hogy mi javítja a predikciót, hanem arról, hogy mi szükséges az okozati hatás azonosíthatóságához.

A tanulmány célja: olyan feltételeket adni, amelyek mellett bizonyos változók biztonságosan eltávolíthatók a gráfból úgy, hogy:

ha a kisebb gráfban azonosítható a hatás, akkor a nagyobban is az lesz (adott feltételek mellett),
és ha a kisebbben nem azonosítható, abból következtethetünk a nagyobbra is.

Egészségügyi példa: adminisztratív változók és „zaj” mérések

EHR-ben rengeteg olyan mező van, ami a folyamatok miatt létezik, nem az okok miatt (pl. „ágykiosztó nővér azonosítója”, „osztályváltás kódja”, „rögzítés időpontja” – ami gyakran inkább a dokumentáció ritmusát méri). Ezek gyakran:

közvetítők,
kolliderek,
vagy a mérési mechanizmus lenyomatai.

A pruning lényege: ne automatikusan mindent beletegyünk, mert az nemcsak lassít, hanem rossz azonosíthatósági döntésekhez is vezethet (például kolliderre kondicionálunk, és torzítunk).

Banki párhuzam: hitelbírálat és „folyamatváltozók”

Hitelkockázatnál is gyakori, hogy a workflow-ból származó változók (pl. „melyik ügyintéző”, „melyik csatorna”, „mennyi ideig volt függőben”) bekerülnek, aztán a modell „okos” lesz, de valójában a folyamat hibáit tanulja. Okozati szemlélettel ezek egy részét épp ki kell venni, ha a cél beavatkozás (például új scoring-szabály vagy új dokumentumlista hatása).

Clustering: mikor jobb összevonni változókat, mint külön kezelni?

A clustering itt nem klaszterezés ügyfelekre vagy páciensekre, hanem változók összevonása: több csomópontból egy „összegzett” csomópontot képezünk, hogy a gráf kisebb legyen, de a lényeges okozati szerkezet megmaradjon.

A gyakorlati intuíció egyszerű:

Ha két (vagy több) változó a célhatás szempontjából ugyanazt a szerepet játssza, akkor néha jobb egyetlen, jól definiált összváltozót használni.

Egészségügyi példa: komorbiditások és rizikóprofil

A páciensek komorbiditásai (hipertónia, diabétesz, COPD stb.) külön-külön szerepelhetnek, de egyes elemzésekben az azonosíthatóság és a számolhatóság szempontjából működhet egy klinikailag értelmezhető összevonás:

például egy „kardiometabolikus rizikó” csomópont,
vagy egy standard index (ha az ok-okozati feltételek ezt engedik).

A nyereség: kisebb gráf, gyorsabb azonosíthatósági ellenőrzés, kevesebb esély arra, hogy a több forrás közti „nem teljes átfedés” szétszedi az elemzést.

Banki példa: ügyfél-státuszok és összevont indikátorok

Banki rendszerekben gyakran több, részben átfedő indikátor van (fizetési késedelem jelzők, limitkihasználtság, behajtási státusz). Egy oksági modellben ezek összevonása néha tisztább, mert:

csökkenti a redundanciát,
mérsékli a multi-source eltérések miatti inkonzisztenciát,
és a döntéshozóknak is könnyebben kommunikálható.

Azonosíthatóság: a kérdés, amit a vezetőknek is fel kell tenniük

A papír központi fogalma az identifiability (azonosíthatóság): meg tudjuk-e határozni a kívánt okozati hatást a rendelkezésre álló megfigyelésekből és kísérletekből.

Ez nem akadémiai finomság. Ez a „meg tudjuk-e védeni a döntést” kérdése.

„Miért jósol a modell, de miért nem dönt?”

Egy prediktív modell segíthet abban, hogy ki magas kockázatú. De amikor beavatkozol (más kezelést adsz, más triázs-szabályt vezetsz be, más hitelpolitikát alkalmazol), akkor megváltoztatod a rendszert. Ekkor az kell:

mi okozza a kimenetet,
mit zárunk ki (confounderek),
mire kondicionálunk,
és mely források mit mérnek.

A do-kalkulus és a többforrású adatfúzió erre ad elméleti keretet, a pruning és clustering pedig üzemképessé teszi.

Hogyan használd ezt egy AI-projektben? (Praktikus lépések)

Az alábbi folyamatot én „kétkörös modellépítésnek” hívom: először oksági tisztázás, utána számolás.

1) Fogalmazd meg a beavatkozást és a célhatást egy mondatban

Példa egészségügy:

„Az új triázs-algoritmus bevezetése mennyivel csökkenti a 4 órán túli várakozások arányát?”

Példa bank:

„A jövedelem-ellenőrzés szigorítása hogyan hat a nemteljesítési rátára 6 hónapon belül?”

2) Rajzolj oksági gráfot (nem kell tökéletesen)

A cél nem a művészi ábra, hanem a viták felszínre hozása:

mi a confounder,
mi közvetítő,
mi kollider,
mi csak adminisztratív jel.

3) Térképezd fel adatforrásonként, mi hiányzik

Adatfúziónál ez a mindennapi fájdalom:

a pilotban van A és B, de nincs C,
a regiszterben van C, de A más definícióval szerepel.

4) Pruning: dobd ki, ami nem szükséges az azonosíthatósághoz

Gyakorlati ellenőrző lista:

Van-e olyan változó, ami csak a dokumentációt vagy a workflow-t méri?
Van-e olyan változó, ami következménye a beavatkozásnak (mediátor), de te confounderként kezeled?
Van-e olyan változó, ami több forrásban amúgy sincs meg, és csak bonyolít?

5) Clustering: vond össze, ami ugyanazt a szerepet játssza

Itt a szabály: csak klinikailag/üzletileg értelmezhető módon vonj össze. A „model majd megoldja” hozzáállás később visszaüt auditnál és bevezetésnél.

6) Csak ezután jöhet az azonosíthatósági vizsgálat és a becslés

A papír egyik fontos üzenete, hogy megfelelő feltételek mellett a kisebb gráf alapján:

következtethetsz az azonosíthatóságra,
és ha azonosítható, akkor előállítható az azonosító formula (azaz hogyan számold ki az okozati hatást).

Gyakori kérdések, amik mindig előjönnek (és jó, ha előre tisztázod)

„Ha prune-olok, nem vesztek el információt?”

Okozati cél esetén a kérdés nem az információ mennyisége, hanem az, hogy a változó szükséges-e a torzítás elkerüléséhez és az azonosíthatósághoz. A felesleges változó sokszor kifejezetten káros.

„A clustering nem maszatolja el a klinikai részleteket?”

Elmaszatolhatja, ha rosszul csinálod. Jól csinálva viszont a lényeg marad: a beavatkozás hatásának korrekt megragadása. A részletek később rétegenként visszahozhatók, ha a döntés már stabil.

„Ezt miért érdekelje egy banki AI-csapatot?”

Mert a bankok egyre több helyen használnak policy jellegű modelleket (árképzés, limit, jóváhagyási logika). Ezek beavatkozások. Aki okozati szemlélet nélkül áll neki, az gyakran csak annyit ér el, hogy „okosabb” lesz a korreláció.

Mit vigyél magaddal, ha csak 3 percet szánsz rá?

Az okozati adatfúzió akkor hasznos, amikor több – részben hiányos – adatforrásból kell beavatkozások hatását megérteni. A do-kalkulus erős, de nagy gráfoknál lassú és törékeny. A pruning és a clustering egy praktikus előszoba: kisebb modell, tisztább szerkezet, kezelhetőbb azonosíthatóság.

Ha az egészségügyben dolgozol, ez közvetlenül javíthatja a diagnosztikai és működési döntések minőségét (triázs, szűrés, ellátási útvonalak). Ha banki környezetben vagy, ugyanaz a logika véd meg attól, hogy policy-döntéseket puszta korrelációra alapozz.

A következő lépés nálad: jelölj ki egy konkrét beavatkozást (egy új szabályt, protokollt vagy modell-bevezetést), és nézd meg, mely változók tényleg kellenek az oksági kérdéshez. Mi az a 20–30% mező, amitől gyorsabb és védhetőbb lesz az elemzésed?