Az AI unlearning forrásadat nĂ©lkĂĽl is megoldhatĂł tanĂşsĂthatĂł garanciákkal. Mutatjuk, miĂ©rt kulcs adatvĂ©delemhez egĂ©szsĂ©gĂĽgyben Ă©s agrárban.

AI unlearning: adatvédelem forrásadat nélkül is
Egyre több AI-rendszer kerĂĽl olyan helyzetbe, ahol „elfelejtĂ©st” kellene vĂ©grehajtania: egy beteg kĂ©ri az adatai törlĂ©sĂ©t, egy licencelt adatforrás szerzĹ‘dĂ©se lejár, vagy egy audit során kiderĂĽl, hogy bizonyos rekordok nem maradhatnak a modell „emlĂ©kezetĂ©ben”. A gond csak az, hogy a gyakorlatban a trĂ©ningadatok gyakran nincsenek már kĂ©znĂ©l: archiválás, adatminimalizálás, beszállĂtĂłi korlátozások vagy egyszerűen költsĂ©g- Ă©s folyamatok miatt.
A friss kutatási irány, amely erre Ă©rdemi választ ad: a tanult felejtĂ©s (machine unlearning) forrásadat nĂ©lkĂĽl, tanĂşsĂthatĂł (certified) garanciákkal. A 2025-ben bemutatott megközelĂtĂ©s lĂ©nyege, hogy nem a teljes eredeti adathalmazbĂłl indul ki, hanem egy helyettesĂtĹ‘ (surrogate) adatkĂ©szletbĹ‘l, Ă©s a kĂ©t eloszlás közötti kĂĽlönbsĂ©ghez igazĂtja a szĂĽksĂ©ges „zajt” – Ăgy kontrolláltan csökkenti annak esĂ©lyĂ©t, hogy a modell vissza tudjon idĂ©zni tiltott informáciĂłkat.
A csavar: ez a tĂ©ma nemcsak egĂ©szsĂ©gĂĽgyben kritikus. A mezĹ‘gazdaságban Ă©s agrártechnolĂłgiában is egyre több a szenzitĂv adat (gazdaságok termelĂ©si adatai, talaj- Ă©s hozamtĂ©rkĂ©pek, állategĂ©szsĂ©gĂĽgyi nyilvántartások, gĂ©padatok), Ă©s a piaci szereplĹ‘k bizalma azon mĂşlik, hogy az AI betartja-e a törlĂ©st Ă©s a hozzáfĂ©rĂ©si korlátokat. Ha az AI „felejt” – de bizonyĂthatĂłan –, az közvetlenĂĽl támogatja a bevezethetĹ‘sĂ©get.
Mit jelent az, hogy egy AI „elfelejt”? (és miért nem ugyanaz, mint a törlés)
Az unlearning cĂ©lja nem az, hogy a nyers adatokat kitöröljĂĽk a tárolĂłbĂłl (az „csak” adatkezelĂ©si feladat), hanem hogy a már betanĂtott modellbĹ‘l eltávolĂtsuk egy adott adathalmaz hatását. Ez a valĂłságban azt jelenti, hogy a modell viselkedĂ©se (predikciĂłi, valĂłszĂnűsĂ©gei, reprezentáciĂłi) a törölt rekordok nĂ©lkĂĽl betanĂtott modellhez „elĂ©g közel” kerĂĽljön.
Miért nehéz ez?
- A modern modellekben a tudás elosztva tárolódik a paraméterekben.
- Egyetlen beteg- vagy gazdasági rekord hatása szétterülhet sok súlyon.
- Ha „gyorsan ĂşjratanĂtunk”, az drága Ă©s sokszor nem reprodukálhatĂł.
Az egészségügyben a probléma még élesebb: a páciensek adatait sokszor eleve minimalizálják, vagyis a tréningadatok megtartása is korlátozott lehet. Az agráriumban pedig gyakori, hogy a tréningadatok szolgáltatótól jönnek, és a licenc nem engedi a hosszú távú tárolást.
Röviden: az unlearning akkor Ă©r valamit, ha nemcsak „ĂgĂ©ri” a felejtĂ©st, hanem mĂ©rhetĹ‘, auditálhatĂł garanciát ad rá.
A tanĂşsĂthatĂł unlearning ötlete: felejtĂ©s forrásadat nĂ©lkĂĽl
A forráscikk központi állĂtása egyszerű Ă©s praktikus: ne feltĂ©telezzĂĽk, hogy az eredeti trĂ©ningminták elĂ©rhetĹ‘k. Ehelyett használjunk egy surrogate adathalmazt, ami statisztikailag hasonlĂt az eredetire, Ă©s az unlearning lĂ©pĂ©st Ăşgy kalibráljuk, hogy figyelembe vegye a kĂ©t eloszlás közti távolságot.
Surrogate adat: mitől „jó”, és honnan jön?
A surrogate nem varázslat. A mezőgazdaságban például lehet:
- újraszimulált idősor időjárás + talaj + tápanyag modellekkel,
- nyĂlt adatokbĂłl Ă©s saját szenzoradatbĂłl generált keverĂ©k,
- szintetikus állomány egy generatĂv modellbĹ‘l (szigorĂş kontrollal),
- de akár egy későbbi szezon adata is, ha az eloszlás eléggé stabil.
Egészségügyben tipikus megoldás a de-identifikált vagy szintetikus betegadat, esetleg intézményi „árnyékadatbázis” auditált hozzáféréssel.
A kulcs: a surrogate-nak nem kell azonosnak lennie, de kellően közel kell állnia az eredetihez ahhoz, hogy az unlearning garanciái értelmesek legyenek.
Miért kell zaj? Miért nem elég „finomhangolni”?
A tanĂşsĂthatĂł megközelĂtĂ©sek általában valamilyen vĂ©letlen zaj hozzáadásával Ă©rnek el garanciát. IntuĂciĂł:
- Ha a surrogate eltĂ©r az eredetitĹ‘l, akkor a modell frissĂtĂ©seiben ott maradhatnak nyomok.
- A zaj „elmossa” azt a maradék jelet, ami a törölt rekordokhoz köthető.
A cikk megközelĂtĂ©se azt emeli ki, hogy a zaj mĂ©rtĂ©ke nem fix, hanem a surrogate–forrás eloszlástávolsághoz igazĂtott. Ez jĂłzan kompromisszum: ha a surrogate nagyon jĂł, kevesebb zaj kell (jobb pontosság marad), ha gyengĂ©bb, több zaj kell (erĹ‘sebb felejtĂ©si garancia).
Miért fontos ez a kórházban – és mi köze van az agrár AI-hoz?
A kampány fókusza az egészségügy, de a mezőgazdasági sorozatban érdemes kimondani: a megfelelőség és bizalom ugyanúgy fáj az agráriumban, csak más szereplőknél.
Egészségügy: betegbizalom és auditálható megfelelőség
Egy diagnosztikai vagy triázs modell esetĂ©n a kĂ©rdĂ©s nem elmĂ©leti. Ha egy páciens kĂ©ri az adatainak törlĂ©sĂ©t, akkor az intĂ©zmĂ©nynek gyakran azt is bizonyĂtania kell, hogy:
- az adat nincs meg a tárolókban,
- és a modell sem „emlékszik” rá olyan módon, ami visszafejthető.
A tanĂşsĂthatĂł unlearning pont erre ad keretet: modellviselkedĂ©s-garanciákat lehet hozzá társĂtani, nemcsak belsĹ‘ folyamatleĂrást.
Agrártechnológia: adatmegosztás, licenc és versenyelőny
A precĂziĂłs gazdálkodásban a termelĹ‘i adat sokszor versenyelĹ‘ny. A gazda akkor fog hozamtĂ©rkĂ©pet, gĂ©padatot vagy növĂ©nyvĂ©delmi naplĂłt megosztani, ha biztos abban, hogy:
- kilépéskor a szolgáltató tényleg felejt,
- egy modellből nem lehet „kibányászni” az ő adatait,
- a licencváltás nem ragasztja bent az adatát évekre.
Itt a „felejtĂ©s” ĂĽzleti kĂ©pessĂ©g: csökkenti a belĂ©pĂ©si fĂ©lelmet, Ă©s gyorsĂtja a digitális agrármegoldások terjedĂ©sĂ©t.
Gyakorlati megvalĂłsĂtás: hogyan nĂ©z ki egy unlearning folyamat a valĂłságban?
A papĂr „garanciái” akkor Ă©rnek valamit, ha a csapat le tudja fordĂtani Ĺ‘ket folyamatokra. Én Ăgy bontanám le egy egĂ©szsĂ©gĂĽgyi vagy agrár AI-projektben.
1) Tervezd meg előre a felejtést (különben később fájni fog)
Az unlearning nem utólagos folt. Már modelltervezéskor dönteni kell:
- Mi az unlearning egysége? (egy páciens, egy vizit, egy gazdaság, egy szezon)
- Mi számĂt „törlendĹ‘nek”? (nyers rekord, derivált jellemzĹ‘k, embeddingek)
- Milyen SLA kell? (pl. 7 nap, 30 nap)
2) KĂ©szĂts surrogate adatstratĂ©giát
A surrogate adathalmaz minősége meghatározza a zajigényt, tehát a pontosságot. Minimum checklist:
- eloszlás-eltérés becslése (pl. főbb statisztikák, klaszterek, drift-metrikák),
- reprezentatĂv mintavĂ©tel (Ă©vszakok, rĂ©giĂłk, ritka esetek),
- hozzáférés és naplózás (ki generálja, ki fér hozzá).
3) Zajkalibráció és „utility” kontroll
A gyakorlatban az eloszlástávolság ritkán ismert pontosan. A kutatás is jelzi: becslĂ©sekbĹ‘l dolgozunk, ami gyengĂtheti a garanciát, de mĂ©g Ăgy is Ă©rtĂ©kes.
A jĂł megközelĂtĂ©s:
- több szcenáriĂł (optimista–konzervatĂv távolság),
- célmetrikák: pontosság + felejtési tesztek,
- kontrollkészletek szezonális bontásban (agrárnál ez kötelező).
4) Felejtési tesztek: mit kérdez az auditor?
Ha valaki komolyan veszi az unlearninget, nem elég a „töröltük”. Tipikus tesztcsaládok:
- membership inference jellegű vizsgálatok (felismerhető-e, hogy benne volt-e a rekord),
- célzott „canary” rekordok (szándékosan jelölt minták, amiket később töröltetünk),
- predikciós stabilitás (a törlés után a releváns csoportoknál nem romlik aránytalanul).
A felejtés nem egy gomb, hanem egy mérési rendszer.
Mire figyelj, ha egĂ©szsĂ©gĂĽgyi AI-t Ă©pĂtesz agrár tapasztalatokkal (Ă©s fordĂtva)
A két terület között meglepően sok a párhuzam:
- Szezonális drift: agrárban természetes, egészségügyben osztályváltás, protokollváltás, járványhullám okozza.
- Ritka esetek: mindkét területen a ritka események a legértékesebbek, és a legkockázatosabbak is adatvédelmi szempontból.
- BeszállĂtĂłi fĂĽggĂ©s: szenzorgyártĂł, EHR-szolgáltatĂł, laborrendszer – mindenhol.
KonkrĂ©t javaslatom: Ă©pĂts „felejtĂ©sre kĂ©sz” architektĂşrát.
- Adat- és modellverziózás: minden modellhez legyen meg, mely adatkör hatott rá.
- Törlési napló: kérés, végrehajtás, teszt, eredmény.
- Surrogate pipeline: automatikus frissĂtĂ©s, minĹ‘sĂ©gmĂ©rĂ©s, drift-riasztás.
- ZajparamĂ©ter-politika: elĹ‘re rögzĂtett döntĂ©si szabályokkal (ne ad hoc).
Gyakori kérdések, amiket a csapatod fel fog tenni
„Ha nincs meg az eredeti adat, honnan tudom, hogy tényleg felejtett?”
A válasz: viselkedĂ©salapĂş bizonyĂtással. Nem azt nĂ©zed, hogy „hol van a rekord”, hanem hogy a modellbĹ‘l ki lehet-e következtetni a rekord jelenlĂ©tĂ©t, Ă©s mennyire.
„A zaj nem rontja tönkre a pontosságot?”
Rontja – a kérdés a mérték. A surrogate minősége és a távolságbecslés pontossága dönti el, mennyit kell „fizetni” utility-ben. Épp ezért érdemes a surrogate stratégiára külön erőforrást adni.
„Ez kiváltja az ĂşjratanĂtást?”
Nem mindig. Nagy, sok törlĂ©si kĂ©relemnĂ©l lehet, hogy idĹ‘nkĂ©nt olcsĂłbb egy kontrollált ĂşjratanĂtás. De unlearning nĂ©lkĂĽl az ĂşjratanĂtás minden kĂ©rĂ©snĂ©l rĂ©málom.
KövetkezĹ‘ lĂ©pĂ©s: felejtĂ©s, ami nem csak ĂgĂ©ret
A tanĂşsĂthatĂł unlearning forrásadat nĂ©lkĂĽl egy olyan kĂ©pessĂ©g, ami az egĂ©szsĂ©gĂĽgyben betegbizalmat, az agrártechnolĂłgiában pedig adatmegosztási hajlandĂłságot Ă©pĂt. Nekem az a tapasztalatom, hogy a legtöbb projekt ott csĂşszik el, hogy a felejtĂ©st „majd kĂ©sĹ‘bb” kezeli. KĂ©sĹ‘bb viszont már a teljes adat- Ă©s modellĂ©letciklust kell visszabontani.
Ha 2026-ra AI-t akarsz skálázni kĂłrházi vagy precĂziĂłs gazdálkodási környezetben, akkor a kĂ©rdĂ©s nem az, hogy kell-e unlearning, hanem az, hogy mikor teszed be a folyamatba: mĂ©g a pilot elĹ‘tt, vagy egy audit után, kapkodva.
A te rendszered ma kĂ©pes lenne bizonyĂthatĂłan „elfelejteni” egy teljes gazdaság vagy egy páciens adatait Ăşgy, hogy közben a modell használhatĂł marad?