Parafrázis-vezĂ©relt tanĂtĂładat-vĂzjelezĂ©s: Ăgy tehetĹ‘ kimutathatĂłvá a jogosulatlan modelltrĂ©ning egĂ©szsĂ©gĂĽgyi szövegeken.

AdatvĂzjelezĂ©s LLM-ekhez: jogtisztán az egĂ©szsĂ©gĂĽgyben
A legtöbb szervezet ott csĂşszik el, hogy a mestersĂ©ges intelligenciát (kĂĽlönösen a nagy nyelvi modelleket, LLM-eket) „csak” technolĂłgiai kĂ©rdĂ©snek tekinti. Pedig 2025 vĂ©gĂ©re a versenyelĹ‘ny egyre gyakrabban nem abbĂłl jön, hogy ki tud nagyobb modellt tanĂtani, hanem abbĂłl, hogy kinek van bizonyĂthatĂłan jogtiszta, nyomon követhetĹ‘ Ă©s auditálhatĂł adata. Ez az egĂ©szsĂ©gĂĽgyben kĂĽlönösen Ă©les: klinikai szövegek, zárĂłjelentĂ©sek, call center-leiratok, triázs-chatnaplĂłk, e-mailes betegkommunikáciĂłk – mind olyan adat, ami aranyat Ă©r, Ă©s közben jogilag Ă©rzĂ©keny.
Itt kapcsolĂłdik be egy friss, AAAI 2026-ra elfogadott kutatási irány: parafrázis-vezĂ©relt tanĂtĂładat-vĂzjelezĂ©s. A bemutatott mĂłdszer (SPECTRA) lĂ©nyege, hogy a tulajdonos mĂ©g kiadás elĹ‘tt Ăşgy mĂłdosĂtja a szövegĂ©t (parafrázisokkal), hogy kĂ©sĹ‘bb statisztikailag kimutathatĂł legyen: egy gyanĂşs modell tanult-e ebbĹ‘l az adatbĂłl – akkor is, ha a vĂzjelezett rĂ©sz a teljes tanĂtĂłkorpusz kevesebb mint 0,001%-a volt.
A posztot egy kicsit „kĂ©t világban” Ărom, mert ez a cikk a „MestersĂ©ges intelligencia a pĂ©nzĂĽgyi Ă©s banki szektorban” sorozat rĂ©sze. A bankok már Ă©vek Ăłta Ă©lnek a nyomon követhetĹ‘sĂ©g logikájával (audit trail, compliance, model risk management). Ugyanezt a fegyelmet Ă©rdemes átvinni a healthcare AI-ba is – kĂĽlönösen, ha leadeket szeretnĂ©nk: olyan döntĂ©shozĂłkat, akik most keresik a felelĹ‘s, biztonságos AI-megoldásokat.
Mit old meg a tanĂtĂładat-vĂzjelezĂ©s, Ă©s miĂ©rt lett sĂĽrgĹ‘s?
A tanĂtĂładat-vĂzjelezĂ©s elsĹ‘dleges válasza egyszerű: bizonyĂtani akarod, hogy a te adataid benne vannak-e egy modellben. Ez nem „szĂ©p lenne” kategĂłria, hanem gyakorlati kĂ©nyszer.
A valĂłs problĂ©ma: adatelszivárgás Ă©s Ăşjrafelhasználás bizonyĂtĂ©k nĂ©lkĂĽl
Az LLM-ek tipikusan hatalmas, internetes és vállalati forrásokból összeszedett szövegkorpuszokon tanulnak. Egy egészségügyi szolgáltatónál vagy medtech cégnél a kérdés előbb-utóbb felmerül:
- Egy partner valĂłban csak elemzĂ©sre használta a betegkommunikáciĂłt, vagy modellt is tanĂtott rajta?
- Egy beszállĂtĂł „belsĹ‘ benchmark” cĂmĂ©n elkĂ©rte a dokumentumokat, majd azok visszaköszönnek egy termĂ©kben?
- Egy kutatási együttműködés után a publikáció OK, de mi a helyzet a tréningadat-örökséggel?
A banki analĂłgia kĂ©zenfekvĹ‘: ott egy audit során nem elĂ©g azt mondani, hogy „szerintĂĽnk rendben volt”. BizonyĂtĂ©k kell. Ugyanez kezd elvárássá válni az egĂ©szsĂ©gĂĽgyi AI-ban is.
Miért pont 2025 decemberében releváns?
Karácsony környĂ©kĂ©n sok szervezetnĂ©l indul a 2026-os tervezĂ©s: Ăşj AI-projektek, partner-Ăşjratárgyalások, adatmegosztási szerzĹ‘dĂ©sek frissĂtĂ©se. Ha ilyenkor nem kerĂĽl be a csomagba a tanĂtĂładat nyomon követhetĹ‘sĂ©ge, akkor a következĹ‘ Ă©vben egy vita vagy incidens esetĂ©n már kĂ©sĹ‘ lesz „utĂłlag kitalálni”.
SPECTRA röviden: parafrázisokkal rejtett, mégis kimutatható nyom
A SPECTRA egy „deploy-before-release” megközelĂtĂ©s: mielĹ‘tt kiadod az adatot (partnernek, kutatási körnek, beszállĂtĂłnak), lĂ©trehozol belĹ‘le egy olyan verziĂłt, ami kĂ©sĹ‘bb detektálhatĂł.
Hogyan működik (emberi nyelven)?
A módszer két modell-szerepet használ:
- Parafrázis-generátor LLM: ugyanazt a mondanivalót többféleképp megfogalmazza.
- PontozĂł (scoring) modell: megmondja, hogy egy adott parafrázis mennyire „valĂłszĂnű” az eredetihez kĂ©pest.
Ezután a rendszer olyan parafrázist választ, amelynek pontszáma nagyon közel van az eredeti szöveg pontszámához. Ennek a célja kritikus: ne tolja el a szöveg eloszlását (ne legyen „furcsa”, ne lógjon ki, ne legyen könnyen kiszúrható).
A detektálásnál a gyanĂşs modellt Ăşgy tesztelik, hogy összehasonlĂtják a tokenvalĂłszĂnűsĂ©geit a pontozĂł modellĂ©vel. Ha a gyanĂşs modell tanult a vĂzjelezett adaton, akkor a kĂĽlönbsĂ©g statisztikailag látványosan elkĂĽlönĂĽl.
A kutatás egyik erĹ‘s állĂtása, hogy a detektálásnál kilenc nagyságrendnĂ©l nagyobb p-Ă©rtĂ©k kĂĽlönbsĂ©get Ă©rnek el „benne volt a trĂ©ningben” vs. „nem volt benne” esetek között.
Miért érdekes az a 0,001%?
Ez a gyakorlati használhatĂłság kulcsa. EgĂ©szsĂ©gĂĽgyi adatoknál (Ă©s banki adatoknál is) ritkán adsz ki „mindent”. Gyakran csak kis mintákat, pilot csomagokat, vagy szigorĂşan szűrt adatokat osztasz meg. Ha a vĂzjel csak akkor működik, ha a trĂ©ningkorpusz jelentĹ‘s rĂ©sze a tiĂ©d, az a valĂłságban kevĂ©ssĂ© használhatĂł. A SPECTRA erĹ‘ssĂ©ge pont az, hogy nagyon kis arány mellett is kimutathatĂł.
Mit jelent ez az egészségügyi AI-ban? Integritás, nyomon követhetőség, bizalom
Az egĂ©szsĂ©gĂĽgyi AI-ban a bizalom nem marketing-szlogen. A bizalom operatĂv fogalom: audit, incidenskezelĂ©s, betegjogok, szerzĹ‘dĂ©ses kontroll.
1) Adatintegritás és adatvagyon-védelem
Ha egy kórház, magánklinika vagy telemedicina-szolgáltató saját betegdokumentációt ad át (például triázs automatizálásra vagy orvosi diktálás támogatására), akkor két dolog fáj igazán:
- ha az adat engedély nélkül tréningadat lesz;
- ha ezt utĂłlag nem tudja bizonyĂtani.
A tanĂtĂładat-vĂzjelezĂ©s itt egy jogi Ă©s ĂĽzleti eszköz is: kockázatcsökkentĂ©s tárgyalások elĹ‘tt.
2) Parafrázis mint „soft” védelem: miért nem azonos az anonimizálással?
Sokan összekeverik: „ha parafrazálok, akkor anonimizáltam”. Nem.
- A parafrázis nem garantálja, hogy eltűnik minden személyes adat.
- Viszont segĂthet abban, hogy a szöveg ne legyen triválisan visszakereshetĹ‘ (pl. egyedi fordulatok, ritka mondatszerkezetek), miközben a jelentĂ©s megmarad.
Én ezt Ăşgy kezelem, mint a banki tokenizáciĂł egyik rokonát: nem helyettesĂti a szabályozĂłi megfelelĂ©st, de csökkentheti a támadási felĂĽletet Ă©s közben egy kontrollmechanizmus alapja lehet.
3) FelelĹ‘s AI Ă©s beszállĂtĂłi kontroll (vendor governance)
A bankoknál model risk management van, az egĂ©szsĂ©gĂĽgyben egyre több helyen ugyanez szĂĽletik meg más nĂ©ven. A vĂzjelezĂ©s ilyen kontrollpontokra Ă©pĂthetĹ‘:
- beszállĂtĂłi due diligence rĂ©szekĂ©nt: „tudjuk-e kĂ©sĹ‘bb igazolni a trĂ©ningforrásokat?”
- szerzĹ‘dĂ©ses kikötĂ©shez: „ha trĂ©ning törtĂ©nt, a vĂzjelezĂ©s kimutatja”
- vitás helyzetekben: gyors, kvantitatĂv jelzĂ©s (nem csak e-mail váltások)
Pénzügyi párhuzam: audit trail a modellek korában
A pĂ©nzĂĽgyi szektorban megszokott gondolat, hogy mindennek van nyoma: tranzakciĂłnak, jogosultságnak, modellverziĂłnak, adatmozgásnak. Az LLM-eknĂ©l viszont egy Ăşj tĂpusĂş „nyom” kell: a trĂ©ningnyom.
MiĂ©rt fontos ez bankoknak is (Ă©s miĂ©rt Ărunk rĂłla ebben a sorozatban)?
Mert a bankok is használnak szöveges adatot:
- ügyfélszolgálati chat és telefonleirat
- panaszkezelési jegyzőkönyvek
- KYC/AML dokumentációk szöveges részei
- belső szabályzatok, tudásbázisok
Ha ezek átmennek beszállĂtĂłn, nagyon hasonlĂł kĂ©rdĂ©s jön elĹ‘: kĂ©szĂĽlt-e belĹ‘lĂĽk általános cĂ©lĂş modell, vagy csak a szerzĹ‘dĂ©s szerinti feldolgozás törtĂ©nt?
A healthcare Ă©s a banking tehát egy ponton találkozik: bizonyĂthatĂł adathasználat.
Gyakorlati bevezetĂ©s: hogyan nĂ©z ki egy „vĂzjelezhető” adatkiadás?
A tanĂtĂładat-vĂzjelezĂ©s akkor Ă©r valamit, ha folyamatba kerĂĽl. Nem kell mindent azonnal átĂ©pĂteni, de kell egy minimális operáciĂłs terv.
Minimális bevezetési checklist (amit én kérnék egy pilot előtt)
- Adatkör kijelölĂ©se: mely szövegtĂpusok mennek ki a szervezetbĹ‘l (zárĂłjelentĂ©s-kivonat, triázs dialĂłgusok, e-mail sablonok stb.).
- Kockázatbesorolás: melyik adat mehet ki vĂzjellel, melyik csak aggregáltan, melyik sehogy.
- VĂzjelezĂ©si stratĂ©gia:
- több partner esetĂ©n partnerenkĂ©nt eltĂ©rĹ‘ vĂzjel (hogy vitánál beazonosĂthatĂł legyen a forrás);
- időablakok szerinti rotáció (pl. 2026 Q1-es csomag külön jelöléssel).
- Detektálási protokoll: mi számĂt „gyanĂşs modellnek”, milyen kĂ©rdĂ©shalmazzal tesztelĂĽnk, mi a döntĂ©si kĂĽszöb.
- Jog Ă©s compliance összerakása: a vĂzjel nem helyettesĂti a szerzĹ‘dĂ©st; viszont a szerzĹ‘dĂ©sbe bele lehet Ărni, hogy a vĂzjelezĂ©s a bizonyĂtás rĂ©sze.
KonkrĂ©t pĂ©lda (egĂ©szsĂ©gĂĽgy): triázs-szövegek beszállĂtĂłnál
TegyĂĽk fel, hogy egy telemedicina-szolgáltatĂł 50 000 triázs-beszĂ©lgetĂ©st ad át egy partnernek, aki egy tĂĽnetellenĹ‘rzĹ‘ asszisztenst finomhangol. A szolgáltatĂł attĂłl tart, hogy a partner kĂ©sĹ‘bb általános termĂ©kbe is beĂ©pĂti a tanult mintákat.
- A beszĂ©lgetĂ©sek egy rĂ©szĂ©t SPECTRA-szerű parafrázisos vĂzjellel kiadja.
- KĂ©sĹ‘bb, ha megjelenik egy gyanĂşs modell, a szolgáltatĂł a saját tesztkĂ©rdĂ©seivel megvizsgálja, hogy a modell tokenvalĂłszĂnűsĂ©gei „ráülnek-e” a vĂzjelezett mintára.
- Ezzel nem „bizonyĂtja a teljes trĂ©ningfolyamatot”, de nagyon erĹ‘s jelzĂ©st kap arrĂłl, hogy törtĂ©nt-e tanulás a csomagbĂłl.
A pĂ©nzĂĽgyi megfelelĹ‘: panaszkezelĂ©si dialĂłgusok Ă©s call center-leiratok beszállĂtĂłi felhasználása.
Gyakori kérdések, amiket döntéshozóktól hallok
„Nem rontja a modell teljesĂtmĂ©nyĂ©t, ha a szöveget megpiszkáljuk?”
A SPECTRA pont erre játszik: olyan parafrázist választ, amelynek pontszáma közel van az eredetihez, Ăgy elvileg nem okoz eloszlás-eltolĂłdást. A gyakorlatban Ă©n akkor hinnĂ©m el, ha a pilotban mĂ©rjĂĽk:
- downsteam metrikák (pontosság, F1, hallucinációs arány a saját feladatodon)
- emberi értékelés (orvosi/ügyfélszolgálati szakértők)
„Kijátszható? Mi van, ha a partner tovább paraphrazálja?”
Nincs örök vĂ©delem. Viszont a cĂ©l nem az, hogy „feltörhetetlen” legyen, hanem hogy Ă©letszerű költsĂ©get tegyen a visszaĂ©lĂ©s elĂ©, Ă©s legyen egy skálázhatĂł detektálási mechanizmus. A kutatás állĂtása szerint a vĂzjel „tĂşlĂ©li” a nagy lĂ©ptĂ©kű LLM-trĂ©ninget; ez pont az a rĂ©teg, ahol sok korábbi mĂłdszer elvĂ©rzett.
„Ez adatbiztonság vagy szerzői jog?”
Mindkettő. Egészségügyben gyakran adatvédelemként kezdődik, de gyorsan átmegy adatlicenc és IP kérdésekbe (pl. saját annotációk, saját protokollok, saját tudásbázis). Bankban ugyanez: belső policy-k és know-how.
Merre érdemes továbbmenni 2026-ban?
A tanĂtĂładat-vĂzjelezĂ©s szerintem 2026-ban ott fog igazán teret nyerni, ahol egyszerre van:
- sok szöveges adat,
- sok külső partner,
- és érdemi reputációs/jogi kockázat.
Az egĂ©szsĂ©gĂĽgy tipikusan ilyen. A pĂ©nzĂĽgy szintĂ©n. A közös nevezĹ‘: nem elĂ©g jĂłnak lenni AI-ban; bizonyĂthatĂłan rendben kell lenni.
Ha most tervezel beszállĂtĂłi LLM-projekteket (bankban vagy egĂ©szsĂ©gĂĽgyben), Ă©n ezt a kĂ©rdĂ©st tennĂ©m fel a kickoffon: „Hogyan fogjuk 6 hĂłnap mĂşlva bizonyĂtani, hogy a modell nem tanult olyan adaton, amin nem kellett volna?”
A válasz ma sokszor kĂnos csend. A vĂzjelezĂ©s – kĂĽlönösen a parafrázis-vezĂ©relt megközelĂtĂ©s – egy olyan irány, ami ezt a csendet kĂ©zzelfoghatĂł folyamattá tudja alakĂtani.
Ha szeretnél egy rövid, gyakorlati pilot-tervet (adatkör-kijelölés, partnerenkénti jelölés, detektálási protokoll), érdemes most összerakni – még az első 2026-os adatkiadások előtt.