Federált tanulás heterogĂ©n környezetben: prototĂpusok, adaptĂv margĂłk Ă©s kettĹ‘s desztilláciĂł. Hasznos irány egĂ©szsĂ©gĂĽgyi Ă©s retail AI-hoz.

Federated learning: AI tanulás betegadatok nélkül
A legtöbb egészségügyi AI-projekt ott vérzik el, ahol a legjobban fáj: nem lehet (és nem is szabad) egy helyre összegyűjteni a betegadatokat. Kórházak, rendelők, diagnosztikai központok és telemedicinás szolgáltatók mind külön rendszerekben, külön szabályokkal, eltérő adatminőséggel dolgoznak. Eközben a vezetők ugyanazt kérik: pontosabb előrejelzés, gyorsabb triázs, kevesebb téves riasztás.
A 2025.12.22-Ă©n frissĂtett kutatás (FedProtoKD) egy konkrĂ©t, gyakorlati problĂ©mára ad választ a federált tanuláson belĂĽl: miĂ©rt romlik el a „közös tudás”, amikor a partnerek kĂĽlönbözĹ‘ modelleket Ă©s eltĂ©rĹ‘ adateloszlásokat használnak, Ă©s hogyan lehet ezt javĂtani Ăşgy, hogy közben az adat továbbra sem hagyja el a helyi rendszert.
És itt jön a csavar, ami miatt ez a téma a „Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben” sorozatba is tökéletesen illik: ugyanazok a gondok jelennek meg a több telephelyes kereskedelmi láncoknál, franchise-hálózatoknál, marketplace-eknél és logisztikai partnereknél is. Az egészségügy csak még érzékenyebb terep, ezért ami ott működik, az jellemzően üzletben is erős.
Miért pont a federált tanulás (és miért most)?
A federált tanulás lĂ©nyege egy mondatban: a modell megy az adathoz, nem az adat a modellhez. Ez az egĂ©szsĂ©gĂĽgyben kulcskĂ©rdĂ©s, mert a betegadatok mozgatása jogi, etikai Ă©s biztonsági kockázat. Ugyanakkor egyetlen intĂ©zmĂ©ny adata gyakran kevĂ©s ahhoz, hogy stabil, általánosĂthatĂł AI-modellt kapjunk.
A valóságban a partnerségek „heterogének”:
- Eltérő adatok (non-IID): egy vidéki kórház esetei és egy budapesti centrum esetei más mintázatokat hordoznak.
- Eltérő modellek: nem mindenhol fut ugyanaz a hardver, ugyanaz a deep learning architektúra, ugyanaz a verzió.
- EltĂ©rĹ‘ protokollok: más kĂłdolási szokások, más laborműszerek, más kĂ©palkotĂł beállĂtások.
Ezt hĂvják heterogĂ©n federált tanulásnak (HFL). A FedProtoKD erre a környezetre kĂ©szĂĽlt.
PrototĂpusokkal tanulni: mi ez, Ă©s miĂ©rt hasznos az egĂ©szsĂ©gĂĽgyben?
A prototĂpus-alapĂş HFL-ben a rĂ©sztvevĹ‘k nem nyers adatot osztanak meg, hanem osztály-reprezentatĂv „prototĂpusokat”: tipikus, összegzett jellemzĹ‘vektorokat, amelyek egy diagnĂłziscsoportot (vagy kockázati kategĂłriát) kĂ©pviselnek.
Egészségügyi példa:
- „tüdőgyulladás” képalkotó mintázatainak összegzett, vektorizált reprezentációja
- „magas szepszis-kockázat” labor+vital paramĂ©ter profil prototĂpusa
Ezek a prototĂpusok adatvĂ©delmileg barátságosabbak, Ă©s segĂtenek áthidalni azt, hogy a partnerek eltĂ©rĹ‘ modelleket használnak.
A gond: a klasszikus szerveroldali aggregálás gyakran sima súlyozott átlagolás. A kutatás szerint ez egy kellemetlen mellékhatást okoz: a döntési margó „összenyomódik”.
Ha a prototĂpusok tĂşl közel kerĂĽlnek egymáshoz, a modell könnyebben kever össze osztályokat. EgĂ©szsĂ©gĂĽgyben ez nem „csak” pontosságvesztĂ©s: rossz triázst, hibás riasztást, tĂ©ves negatĂvot jelenthet.
A FedProtoKD lĂ©nyege: kettĹ‘s tudásdesztilláciĂł + adaptĂv margĂłk
A cikk két ötlete együtt erős:
- Dual (kettős) tudásdesztilláció
- TanulhatĂł globális prototĂpusok adaptĂv margĂłkkal
KettĹ‘s tudásdesztilláciĂł: nem csak „kimenetet” tanĂtunk
A tudásdesztilláciĂł klasszikusan azt jelenti, hogy egy „tanár” modell kimenetei (logitjai) segĂtenek egy „diák” modell betanĂtásában. FedProtoKD ezt kibĹ‘vĂti:
- Logit-alapĂş tudás: a kliensmodell osztályonkĂ©nti valĂłszĂnűsĂ©gi/score jellegű jelzĂ©sei.
- PrototĂpus (feature) alapĂş tudás: a kliens által kĂ©pzett jellemzĹ‘tĂ©rbeli reprezentáciĂłk.
Egészségügyben ez azért praktikus, mert a „mit gondol a modell” (logit) és a „milyen mintázatból gondolja” (feature) együtt stabilabb közös tudást ad. Különösen akkor, amikor egyik kórház CT-alapon, a másik többnyire röntgenen, a harmadik strukturált EHR-adatokon erős.
AdaptĂv margĂłk: a ritka esetek nem szorulhatnak háttĂ©rbe
A prototĂpusátlagolás margin-szűkĂĽlĂ©st okozhat: az osztályok reprezentáciĂłi tĂşl közel kerĂĽlnek.
A FedProtoKD erre kontrasztĂv tanulás alapĂş, tanulhatĂł szerver-prototĂpust vezet be, Ă©s osztályonkĂ©nt adaptĂv prototĂpus-margĂłt használ.
Mit jelent ez egyszerűen?
- A szerver nem csak „összeátlagol”, hanem tanul: Ăşgy igazĂtja a globális prototĂpusokat, hogy az osztályok jobban elkĂĽlönĂĽljenek.
- Az elkĂĽlönĂtĂ©s mĂ©rtĂ©ke (a margĂł) osztályonkĂ©nt változik. Ez egĂ©szsĂ©gĂĽgyben aranyat Ă©r, mert a ritka, de kritikus kĂłrkĂ©peket (pĂ©ldául bizonyos komplikáciĂłk) nem lehet ugyanazzal a „távolságszabállyal” kezelni, mint a gyakoriakat.
A publikált eredmĂ©ny szerint a megközelĂtĂ©s átlagosan 1,13% pontosságjavulást hozott, Ă©s bizonyos beállĂtásokban akár 34,13%-ot is. Ez szĂ©les tartomány, de pont ezt ĂĽzeni: heterogĂ©n környezetben nĂ©ha „kicsi” mĂłdszertani változás is nagyot szĂłl.
„Nyilvános” minták okos használata: mi számĂt valĂłban hasznosnak?
Sok federált rendszerben van egy kis, nem Ă©rzĂ©keny publikus (vagy pszeudo-publikus) mintaállomány, amit a szerver oldalon is lehet használni. A FedProtoKD ebben sem naiv: Ă©rtĂ©keli a minták fontosságát az alapján, hogy mennyire „közel” vannak a saját osztályuk prototĂpusához.
Gyakorlati értelmezés:
- Ha egy minta tipikus Ă©s jĂłl illeszkedik, akkor jĂł „tananyag” lehet a közös prototĂpusok finomĂtásához.
- Ha nagyon kilĂłg, lehet zaj, rosszul cĂmkĂ©zett eset, vagy intĂ©zmĂ©nyspecifikus torzĂtás.
Ez a gondolkodásmĂłd kiskereskedelemben is ismerĹ‘s: nem minden tranzakciĂł egyformán informatĂv. Egy egĂ©szsĂ©gĂĽgyi analĂłgiában pedig: nem minden vizsgálati eredmĂ©ny ugyanolyan megbĂzhatĂł.
Mit jelent ez a gyakorlatban: 3 egészségügyi forgatókönyv
A kutatás nem „kĂ©sz termĂ©k”, de nagyon jĂłl kijelöli, merre Ă©rdemes Ă©pĂtkezni.
1) Kórházak közötti diagnosztikai együttműködés
Ha több intĂ©zmĂ©ny egyĂĽtt tanĂt kĂ©pdiagnosztikai modellt (CT/MR/röntgen), szinte garantált a heterogenitás: más gĂ©ppark, más protokoll, más betegösszetĂ©tel. PrototĂpus-alapĂş HFL-lel Ă©s adaptĂv margĂłkkal csökkenthetĹ‘ az intĂ©zmĂ©nyi torzĂtás, Ă©s stabilabb lehet a több helyszĂnre kiterjeszthetĹ‘ teljesĂtmĂ©ny.
2) Telemedicina és otthoni monitorozás
Otthoni eszközök (pulzus, SpO2, EKG patch) adatai zajosabbak, Ă©s gyártĂłnkĂ©nt is eltĂ©rnek. A heterogĂ©n federált tanulás itt termĂ©szetes választás. A kettĹ‘s desztilláciĂł segĂt, hogy a rendszer ne csak „jĂłsoljon”, hanem a jellemzĹ‘tĂ©rben is közelĂtsen a közös reprezentáciĂłhoz.
3) Multimodális kockázat-előrejelzés (EHR + lab + kép)
A valĂłs klinikai döntĂ©stámogatás ritkán csak egy adatforrás. A prototĂpusok jĂł „közös nyelvet” adnak: a kĂĽlönbözĹ‘ intĂ©zmĂ©nyek más-más modalitásokkal is hozzájárulhatnak a közös tudáshoz anĂ©lkĂĽl, hogy mindenkinek ugyanazt a modellt kellene futtatnia.
Ugyanez a logika kiskereskedelemben: miért illik a sorozatba?
A kiskereskedelemben és e-kereskedelemben a federált tanulás tipikus indokai:
- adatmegosztási korlátok partnerhálózatok között,
- üzleti titok védelme,
- eltérő rendszerek (különböző POS, CRM, webshop motorok),
- országonként eltérő vásárlói viselkedés.
A FedProtoKD szemlĂ©lete itt Ăşgy fordĂthatĂł le, hogy:
- a „prototĂpus” lehet vásárlĂłi szegmens-reprezentáciĂł,
- az adaptĂv margĂł segĂt, hogy a hasonlĂł szegmensek ne olvadjanak össze,
- a kettĹ‘s desztilláciĂł erĹ‘sĂti, hogy a partnerek eltĂ©rĹ‘ modelljei mĂ©gis „egy nyelvet beszĂ©ljenek”.
Ha ajánlĂłrendszert, kereslet-elĹ‘rejelzĂ©st vagy kĂ©szletoptimalizálást Ă©pĂtesz több bolt/hub/partner adataibĂłl, a heterogĂ©n federált tanulás egyre kevĂ©sbĂ© elmĂ©let, egyre inkább napi realitás.
Gyakori kérdések, amiket a döntéshozók feltesznek (és a jó válaszok)
Mennyi adatot kell megosztani a federált tanuláshoz?
Nullát is lehet, ha csak modellfrissĂtĂ©sek mennek. PrototĂpus-alapĂş mĂłdszereknĂ©l prototĂpusok Ă©s logit-informáciĂłk is megosztásra kerĂĽlhetnek, ami továbbra sem nyers betegadat.
A prototĂpus tĂ©nyleg „biztonságos”?
Biztonságosabb, de nem varázspajzs. A prototĂpus aggregált reprezentáciĂł, mĂ©gis lehetnek visszafejtĂ©si kockázatok. EgĂ©szsĂ©gĂĽgyben Ă©n azt tartom jĂł alapnak, ha a prototĂpusos megosztást is kiegĂ©szĂtjĂĽk szervezeti Ă©s technikai kontrollokkal (hozzáfĂ©rĂ©s-kezelĂ©s, audit, differenciális privacy vagy secure aggregation, ahol indokolt).
Mi a fő kockázat bevezetéskor?
A legnagyobb kockázat nem az algoritmus, hanem a heterogĂ©n adatminĹ‘sĂ©g: cĂmkĂ©zĂ©si eltĂ©rĂ©sek, protokoll-kĂĽlönbsĂ©gek, hiányzĂł adatok. A FedProtoKD pont azt ĂĽzeni, hogy a heterogenitást kezelni lehet, de nem lehet „szĹ‘nyeg alá söpörni”.
Mit érdemes kipróbálni 30 nap alatt? (gyakorlati lépések)
Ha intĂ©zmĂ©nyi vagy partnerhálĂłzati AI-t Ă©pĂtesz (egĂ©szsĂ©gĂĽgyben vagy kereskedelemben), ez a rövid terv működni szokott:
- Heterogenitás-tĂ©rkĂ©p: Ărd össze, melyik partnernĂ©l milyen adatforrás, milyen cĂmkĂ©zĂ©s, milyen modell/infra van.
- PrototĂpus definĂciĂł: döntsd el, mi az „osztály” (diagnĂłzis, kockázati kategĂłria, szegmens), Ă©s milyen feature-tĂ©rben kĂ©peztek prototĂpust.
- Pilot 2–3 klienssel: nem kell rögtön 20 intĂ©zmĂ©ny. ElĹ‘bb nĂ©zd meg, hogy a prototĂpusátlagolásnál jelentkezik-e margin-szűkĂĽlĂ©s (tipikusan igen).
- KontrasztĂv szerver-prototĂpus teszt: mĂ©g ha nem is pont FedProtoKD-t valĂłsĂtasz meg, a „tanulhatĂł globális prototĂpus” gondolatot Ă©rdemes lemásolni.
- Metrikák rendbetétele: pontosság mellett mérj osztályonkénti recall-t (különösen ritka, kritikus osztályokra), és nézd a kalibrációt is.
Merre tartunk 2026-ban: a decentralizált tanulás lesz a normál
A 2025 vĂ©gi trend egyĂ©rtelmű: a decentralizált, adatot helyben tartĂł tanĂtási mĂłdok nem extra opciĂłk, hanem alapelvárások lesznek. Az egĂ©szsĂ©gĂĽgyben ez adatvĂ©delem Ă©s bizalom kĂ©rdĂ©se. A kiskereskedelemben versenyelĹ‘ny Ă©s partneri egyĂĽttműködĂ©s.
A FedProtoKD legfontosabb ĂĽzenete számomra egyszerű: nem elĂ©g adatot nem megosztani – a közös tudást is jĂłl kell összerakni. Ha a prototĂpusokat csak „összeátlagoljuk”, az gyakran pont azt a finom döntĂ©si távolságot nyĂrja ki, ami a jĂł diagnĂłzist (vagy jĂł ajánlást) megkĂĽlönbözteti a közepestĹ‘l.
Ha most Ă©pĂtesz több szereplĹ‘s AI-rendszert, Ă©rdemes feltenni egy konkrĂ©t kĂ©rdĂ©st: hol fog a te rendszeredben összenyomĂłdni a döntĂ©si margĂł – Ă©s mit teszel ellene mĂ©g a pilot fázisban?