Okozati adatfĂşziĂł pruninggal Ă©s clusteringgel: kisebb gráf, gyorsabb azonosĂthatĂłság, jobb döntĂ©sek egĂ©szsĂ©gĂĽgyben Ă©s banki AI-projektekben.

Okozati adatfúzió: pruning és clustering a gyakorlatban
A legtöbb adatvezĂ©relt projekt ott csĂşszik el, hogy összekeveri a korreláciĂłt az ok-okozattal. Ez a pĂ©nzĂĽgyi Ă©s banki szektorban ismerĹ‘s: egy modell „jĂłl jĂłsol”, mĂ©gis rossz döntĂ©seket támogat, mert nem azt válaszolja meg, hogy mi fog törtĂ©nni, ha beavatkozunk (pĂ©ldául változtatunk a hitelbĂrálati szabályon), hanem csak azt, hogy mi szokott egyĂĽtt járni valamivel.
Ugyanez a problĂ©ma az egĂ©szsĂ©gĂĽgyben mĂ©g Ă©lesebb. Egy triázs-szabály, egy szűrĹ‘program, egy terápiás protokoll mĂłdosĂtása: mind beavatkozás. Ilyenkor nem elĂ©g a mintázatfelismerĂ©s; okozati hatást akarunk. A friss arXiv-tanulmány (Tabell–Tikka–Karvanen, 2025.12.19-es verziĂł) pont erre ad egy praktikus választ: hogyan lehet az okozati adatfĂşziĂłt (observáciĂłs + kĂsĂ©rleti adatok összerakását) könnyebben számolhatĂłvá tenni kĂ©t elĹ‘feldolgozĂł lĂ©pĂ©ssel: pruninggal (felesleges változĂłk elhagyása) Ă©s clusteringgel (változĂłk összevonása).
A bejegyzĂ©s a „MestersĂ©ges intelligencia a pĂ©nzĂĽgyi Ă©s banki szektorban” sorozat rĂ©sze, de vĂ©gig az egĂ©szsĂ©gĂĽgyi kampány-szöget tartom szem elĹ‘tt: jobb döntĂ©s, jobb diagnosztika, okosabb adat-integráciĂł. A trĂĽkk az, hogy a kĂ©t iparág ugyanazzal a problĂ©mával kĂĽzd: sok forrásbĂłl jövĹ‘, hiányos, eltĂ©rĹ‘ definĂciĂłjĂş adatokbĂłl kell beavatkozásokra vonatkozĂł, megbĂzhatĂł következtetĂ©st levonni.
Mi az okozati adatfĂşziĂł, Ă©s miĂ©rt számĂt az egĂ©szsĂ©gĂĽgyben?
Az okozati adatfĂşziĂł lĂ©nyege: több adatforrást (pĂ©ldául kĂłrházi EHR-adatokat, regisztereket, klinikai vizsgálatokat, pilot-projekteket) Ăşgy kombinálunk, hogy azonosĂthatĂłvá váljon egy okozati hatás, amit egyetlen forrásbĂłl nem tudnánk korrektĂĽl becsĂĽlni.
Egészségügyi példa (tipikus decemberi szezonban különösen aktuális): sürgősségi osztályon nő a terhelés, és felmerül egy új triázs-algoritmus bevezetése. Lehet, hogy van:
- Observációs adat (mi történt eddig a régi folyamattal),
- Ă©s van kĂsĂ©rleti/pilot adat (egy-kĂ©t osztályon kiprĂłbálták az Ăşjat, de nem minden változĂłt mĂ©rtek ugyanĂşgy).
Az adatfúzió célja ilyenkor nem az, hogy „tippeljünk”, hanem hogy válaszoljunk a beavatkozásra:
„Mi lenne az átlagos várakozási idő, ha holnaptól mindenhol az új triázs-szabályt használnánk?”
A gond az, hogy a több forrásbĂłl Ă©pĂtett oksági gráf (okozati diagram) gyorsan Ăłriásira nĹ‘. És itt jön a papĂr fĹ‘ ĂĽzenete: csökkentsĂĽk a modellt okosan, mielĹ‘tt számolni kezdĂĽnk.
Miért nehéz ez do-kalkulussal?
A do-kalkulus a legáltalánosabb eszköz az okozati azonosĂthatĂłság vizsgálatára adatfĂşziĂłban, fĹ‘leg akkor, ha egyes változĂłk csak bizonyos forrásokban vannak jelen. Csakhogy a do-kalkulus alapĂş eljárások komputáciĂłsan megterhelĹ‘k, amikor:
- sok a változó,
- sok a kapcsolat,
- több adatforrást kell összehangolni,
- és a hiányosságok nem véletlenszerűek.
A valóságban ez a tipikus kórházi helyzet. És a banki világban is: több csatorna, több rendszer, eltérő attribútumok, időben változó szabályok.
Pruning: mikor érdemes tényleg elhagyni változókat?
A pruning itt nem „feature selection” a klasszikus ML-Ă©rtelemben. Nem arrĂłl szĂłl, hogy mi javĂtja a predikciĂłt, hanem arrĂłl, hogy mi szĂĽksĂ©ges az okozati hatás azonosĂthatĂłságához.
A tanulmány cĂ©lja: olyan feltĂ©teleket adni, amelyek mellett bizonyos változĂłk biztonságosan eltávolĂthatĂłk a gráfbĂłl Ăşgy, hogy:
- ha a kisebb gráfban azonosĂthatĂł a hatás, akkor a nagyobban is az lesz (adott feltĂ©telek mellett),
- Ă©s ha a kisebbben nem azonosĂthatĂł, abbĂłl következtethetĂĽnk a nagyobbra is.
EgĂ©szsĂ©gĂĽgyi pĂ©lda: adminisztratĂv változĂłk Ă©s „zaj” mĂ©rĂ©sek
EHR-ben rengeteg olyan mezĹ‘ van, ami a folyamatok miatt lĂ©tezik, nem az okok miatt (pl. „ágykiosztĂł nĹ‘vĂ©r azonosĂtĂłja”, „osztályváltás kĂłdja”, „rögzĂtĂ©s idĹ‘pontja” – ami gyakran inkább a dokumentáciĂł ritmusát mĂ©ri). Ezek gyakran:
- közvetĂtĹ‘k,
- kolliderek,
- vagy a mérési mechanizmus lenyomatai.
A pruning lĂ©nyege: ne automatikusan mindent beletegyĂĽnk, mert az nemcsak lassĂt, hanem rossz azonosĂthatĂłsági döntĂ©sekhez is vezethet (pĂ©ldául kolliderre kondicionálunk, Ă©s torzĂtunk).
Banki párhuzam: hitelbĂrálat Ă©s „folyamatváltozĂłk”
Hitelkockázatnál is gyakori, hogy a workflow-ból származó változók (pl. „melyik ügyintéző”, „melyik csatorna”, „mennyi ideig volt függőben”) bekerülnek, aztán a modell „okos” lesz, de valójában a folyamat hibáit tanulja. Okozati szemlélettel ezek egy részét épp ki kell venni, ha a cél beavatkozás (például új scoring-szabály vagy új dokumentumlista hatása).
Clustering: mikor jobb összevonni változókat, mint külön kezelni?
A clustering itt nem klaszterezés ügyfelekre vagy páciensekre, hanem változók összevonása: több csomópontból egy „összegzett” csomópontot képezünk, hogy a gráf kisebb legyen, de a lényeges okozati szerkezet megmaradjon.
A gyakorlati intuĂciĂł egyszerű:
Ha két (vagy több) változó a célhatás szempontjából ugyanazt a szerepet játssza, akkor néha jobb egyetlen, jól definiált összváltozót használni.
Egészségügyi példa: komorbiditások és rizikóprofil
A páciensek komorbiditásai (hipertĂłnia, diabĂ©tesz, COPD stb.) kĂĽlön-kĂĽlön szerepelhetnek, de egyes elemzĂ©sekben az azonosĂthatĂłság Ă©s a számolhatĂłság szempontjábĂłl működhet egy klinikailag Ă©rtelmezhetĹ‘ összevonás:
- például egy „kardiometabolikus rizikó” csomópont,
- vagy egy standard index (ha az ok-okozati feltételek ezt engedik).
A nyeresĂ©g: kisebb gráf, gyorsabb azonosĂthatĂłsági ellenĹ‘rzĂ©s, kevesebb esĂ©ly arra, hogy a több forrás közti „nem teljes átfedĂ©s” szĂ©tszedi az elemzĂ©st.
Banki példa: ügyfél-státuszok és összevont indikátorok
Banki rendszerekben gyakran több, részben átfedő indikátor van (fizetési késedelem jelzők, limitkihasználtság, behajtási státusz). Egy oksági modellben ezek összevonása néha tisztább, mert:
- csökkenti a redundanciát,
- mérsékli a multi-source eltérések miatti inkonzisztenciát,
- és a döntéshozóknak is könnyebben kommunikálható.
AzonosĂthatĂłság: a kĂ©rdĂ©s, amit a vezetĹ‘knek is fel kell tenniĂĽk
A papĂr központi fogalma az identifiability (azonosĂthatĂłság): meg tudjuk-e határozni a kĂvánt okozati hatást a rendelkezĂ©sre állĂł megfigyelĂ©sekbĹ‘l Ă©s kĂsĂ©rletekbĹ‘l.
Ez nem akadémiai finomság. Ez a „meg tudjuk-e védeni a döntést” kérdése.
„Miért jósol a modell, de miért nem dönt?”
Egy prediktĂv modell segĂthet abban, hogy ki magas kockázatĂş. De amikor beavatkozol (más kezelĂ©st adsz, más triázs-szabályt vezetsz be, más hitelpolitikát alkalmazol), akkor megváltoztatod a rendszert. Ekkor az kell:
- mi okozza a kimenetet,
- mit zárunk ki (confounderek),
- mire kondicionálunk,
- és mely források mit mérnek.
A do-kalkulus és a többforrású adatfúzió erre ad elméleti keretet, a pruning és clustering pedig üzemképessé teszi.
Hogyan használd ezt egy AI-projektben? (Praktikus lépések)
Az alábbi folyamatot Ă©n „kĂ©tkörös modellĂ©pĂtĂ©snek” hĂvom: elĹ‘ször oksági tisztázás, utána számolás.
1) Fogalmazd meg a beavatkozást és a célhatást egy mondatban
Példa egészségügy:
- „Az új triázs-algoritmus bevezetése mennyivel csökkenti a 4 órán túli várakozások arányát?”
Példa bank:
- „A jövedelem-ellenĹ‘rzĂ©s szigorĂtása hogyan hat a nemteljesĂtĂ©si rátára 6 hĂłnapon belĂĽl?”
2) Rajzolj oksági gráfot (nem kell tökéletesen)
A cĂ©l nem a művĂ©szi ábra, hanem a viták felszĂnre hozása:
- mi a confounder,
- mi közvetĂtĹ‘,
- mi kollider,
- mi csak adminisztratĂv jel.
3) Térképezd fel adatforrásonként, mi hiányzik
Adatfúziónál ez a mindennapi fájdalom:
- a pilotban van A és B, de nincs C,
- a regiszterben van C, de A más definĂciĂłval szerepel.
4) Pruning: dobd ki, ami nem szĂĽksĂ©ges az azonosĂthatĂłsághoz
Gyakorlati ellenőrző lista:
- Van-e olyan változó, ami csak a dokumentációt vagy a workflow-t méri?
- Van-e olyan változó, ami következménye a beavatkozásnak (mediátor), de te confounderként kezeled?
- Van-e olyan változĂł, ami több forrásban amĂşgy sincs meg, Ă©s csak bonyolĂt?
5) Clustering: vond össze, ami ugyanazt a szerepet játssza
Itt a szabály: csak klinikailag/üzletileg értelmezhető módon vonj össze. A „model majd megoldja” hozzáállás később visszaüt auditnál és bevezetésnél.
6) Csak ezután jöhet az azonosĂthatĂłsági vizsgálat Ă©s a becslĂ©s
A papĂr egyik fontos ĂĽzenete, hogy megfelelĹ‘ feltĂ©telek mellett a kisebb gráf alapján:
- következtethetsz az azonosĂthatĂłságra,
- Ă©s ha azonosĂthatĂł, akkor előállĂthatĂł az azonosĂtĂł formula (azaz hogyan számold ki az okozati hatást).
Gyakori kérdések, amik mindig előjönnek (és jó, ha előre tisztázod)
„Ha prune-olok, nem vesztek el információt?”
Okozati cĂ©l esetĂ©n a kĂ©rdĂ©s nem az informáciĂł mennyisĂ©ge, hanem az, hogy a változĂł szĂĽksĂ©ges-e a torzĂtás elkerĂĽlĂ©sĂ©hez Ă©s az azonosĂthatĂłsághoz. A felesleges változĂł sokszor kifejezetten káros.
„A clustering nem maszatolja el a klinikai részleteket?”
Elmaszatolhatja, ha rosszul csinálod. Jól csinálva viszont a lényeg marad: a beavatkozás hatásának korrekt megragadása. A részletek később rétegenként visszahozhatók, ha a döntés már stabil.
„Ezt miért érdekelje egy banki AI-csapatot?”
Mert a bankok egyre több helyen használnak policy jellegű modelleket (árképzés, limit, jóváhagyási logika). Ezek beavatkozások. Aki okozati szemlélet nélkül áll neki, az gyakran csak annyit ér el, hogy „okosabb” lesz a korreláció.
Mit vigyél magaddal, ha csak 3 percet szánsz rá?
Az okozati adatfĂşziĂł akkor hasznos, amikor több – rĂ©szben hiányos – adatforrásbĂłl kell beavatkozások hatását megĂ©rteni. A do-kalkulus erĹ‘s, de nagy gráfoknál lassĂş Ă©s törĂ©keny. A pruning Ă©s a clustering egy praktikus elĹ‘szoba: kisebb modell, tisztább szerkezet, kezelhetĹ‘bb azonosĂthatĂłság.
Ha az egĂ©szsĂ©gĂĽgyben dolgozol, ez közvetlenĂĽl javĂthatja a diagnosztikai Ă©s működĂ©si döntĂ©sek minĹ‘sĂ©gĂ©t (triázs, szűrĂ©s, ellátási Ăştvonalak). Ha banki környezetben vagy, ugyanaz a logika vĂ©d meg attĂłl, hogy policy-döntĂ©seket puszta korreláciĂłra alapozz.
A következő lépés nálad: jelölj ki egy konkrét beavatkozást (egy új szabályt, protokollt vagy modell-bevezetést), és nézd meg, mely változók tényleg kellenek az oksági kérdéshez. Mi az a 20–30% mező, amitől gyorsabb és védhetőbb lesz az elemzésed?