Adatvízjelezés LLM-ekhez: jogtisztán az egészségügyben

Mesterséges intelligencia a pénzügyi és banki szektorban••By 3L3C

Parafrázis-vezérelt tanítóadat-vízjelezés: így tehető kimutathatóvá a jogosulatlan modelltréning egészségügyi szövegeken.

LLMadatvízjelezésegészségügyi AIAI governanceadatlicenccompliance
Share:

Featured image for Adatvízjelezés LLM-ekhez: jogtisztán az egészségügyben

Adatvízjelezés LLM-ekhez: jogtisztán az egészségügyben

A legtöbb szervezet ott csúszik el, hogy a mesterséges intelligenciát (különösen a nagy nyelvi modelleket, LLM-eket) „csak” technológiai kérdésnek tekinti. Pedig 2025 végére a versenyelőny egyre gyakrabban nem abból jön, hogy ki tud nagyobb modellt tanítani, hanem abból, hogy kinek van bizonyíthatóan jogtiszta, nyomon követhető és auditálható adata. Ez az egészségügyben különösen éles: klinikai szövegek, zárójelentések, call center-leiratok, triázs-chatnaplók, e-mailes betegkommunikációk – mind olyan adat, ami aranyat ér, és közben jogilag érzékeny.

Itt kapcsolódik be egy friss, AAAI 2026-ra elfogadott kutatási irány: parafrázis-vezérelt tanítóadat-vízjelezés. A bemutatott módszer (SPECTRA) lényege, hogy a tulajdonos még kiadás előtt úgy módosítja a szövegét (parafrázisokkal), hogy később statisztikailag kimutatható legyen: egy gyanús modell tanult-e ebből az adatból – akkor is, ha a vízjelezett rész a teljes tanítókorpusz kevesebb mint 0,001%-a volt.

A posztot egy kicsit „két világban” írom, mert ez a cikk a „Mesterséges intelligencia a pénzügyi és banki szektorban” sorozat része. A bankok már évek óta élnek a nyomon követhetőség logikájával (audit trail, compliance, model risk management). Ugyanezt a fegyelmet érdemes átvinni a healthcare AI-ba is – különösen, ha leadeket szeretnénk: olyan döntéshozókat, akik most keresik a felelős, biztonságos AI-megoldásokat.

Mit old meg a tanítóadat-vízjelezés, és miért lett sürgős?

A tanítóadat-vízjelezés elsődleges válasza egyszerű: bizonyítani akarod, hogy a te adataid benne vannak-e egy modellben. Ez nem „szép lenne” kategória, hanem gyakorlati kényszer.

A valós probléma: adatelszivárgás és újrafelhasználás bizonyíték nélkül

Az LLM-ek tipikusan hatalmas, internetes és vállalati forrásokból összeszedett szövegkorpuszokon tanulnak. Egy egészségügyi szolgáltatónál vagy medtech cégnél a kérdés előbb-utóbb felmerül:

  • Egy partner valĂłban csak elemzĂ©sre használta a betegkommunikáciĂłt, vagy modellt is tanĂ­tott rajta?
  • Egy beszállĂ­tĂł „belsĹ‘ benchmark” cĂ­mĂ©n elkĂ©rte a dokumentumokat, majd azok visszaköszönnek egy termĂ©kben?
  • Egy kutatási egyĂĽttműködĂ©s után a publikáciĂł OK, de mi a helyzet a trĂ©ningadat-öröksĂ©ggel?

A banki analógia kézenfekvő: ott egy audit során nem elég azt mondani, hogy „szerintünk rendben volt”. Bizonyíték kell. Ugyanez kezd elvárássá válni az egészségügyi AI-ban is.

Miért pont 2025 decemberében releváns?

Karácsony környékén sok szervezetnél indul a 2026-os tervezés: új AI-projektek, partner-újratárgyalások, adatmegosztási szerződések frissítése. Ha ilyenkor nem kerül be a csomagba a tanítóadat nyomon követhetősége, akkor a következő évben egy vita vagy incidens esetén már késő lesz „utólag kitalálni”.

SPECTRA röviden: parafrázisokkal rejtett, mégis kimutatható nyom

A SPECTRA egy „deploy-before-release” megközelítés: mielőtt kiadod az adatot (partnernek, kutatási körnek, beszállítónak), létrehozol belőle egy olyan verziót, ami később detektálható.

Hogyan működik (emberi nyelven)?

A módszer két modell-szerepet használ:

  1. Parafrázis-generátor LLM: ugyanazt a mondanivalót többféleképp megfogalmazza.
  2. Pontozó (scoring) modell: megmondja, hogy egy adott parafrázis mennyire „valószínű” az eredetihez képest.

Ezután a rendszer olyan parafrázist választ, amelynek pontszáma nagyon közel van az eredeti szöveg pontszámához. Ennek a célja kritikus: ne tolja el a szöveg eloszlását (ne legyen „furcsa”, ne lógjon ki, ne legyen könnyen kiszúrható).

A detektálásnál a gyanús modellt úgy tesztelik, hogy összehasonlítják a tokenvalószínűségeit a pontozó modellével. Ha a gyanús modell tanult a vízjelezett adaton, akkor a különbség statisztikailag látványosan elkülönül.

A kutatás egyik erős állítása, hogy a detektálásnál kilenc nagyságrendnél nagyobb p-érték különbséget érnek el „benne volt a tréningben” vs. „nem volt benne” esetek között.

Miért érdekes az a 0,001%?

Ez a gyakorlati használhatóság kulcsa. Egészségügyi adatoknál (és banki adatoknál is) ritkán adsz ki „mindent”. Gyakran csak kis mintákat, pilot csomagokat, vagy szigorúan szűrt adatokat osztasz meg. Ha a vízjel csak akkor működik, ha a tréningkorpusz jelentős része a tiéd, az a valóságban kevéssé használható. A SPECTRA erőssége pont az, hogy nagyon kis arány mellett is kimutatható.

Mit jelent ez az egészségügyi AI-ban? Integritás, nyomon követhetőség, bizalom

Az egészségügyi AI-ban a bizalom nem marketing-szlogen. A bizalom operatív fogalom: audit, incidenskezelés, betegjogok, szerződéses kontroll.

1) Adatintegritás és adatvagyon-védelem

Ha egy kórház, magánklinika vagy telemedicina-szolgáltató saját betegdokumentációt ad át (például triázs automatizálásra vagy orvosi diktálás támogatására), akkor két dolog fáj igazán:

  • ha az adat engedĂ©ly nĂ©lkĂĽl trĂ©ningadat lesz;
  • ha ezt utĂłlag nem tudja bizonyĂ­tani.

A tanítóadat-vízjelezés itt egy jogi és üzleti eszköz is: kockázatcsökkentés tárgyalások előtt.

2) Parafrázis mint „soft” védelem: miért nem azonos az anonimizálással?

Sokan összekeverik: „ha parafrazálok, akkor anonimizáltam”. Nem.

  • A parafrázis nem garantálja, hogy eltűnik minden szemĂ©lyes adat.
  • Viszont segĂ­thet abban, hogy a szöveg ne legyen triválisan visszakereshetĹ‘ (pl. egyedi fordulatok, ritka mondatszerkezetek), miközben a jelentĂ©s megmarad.

Én ezt úgy kezelem, mint a banki tokenizáció egyik rokonát: nem helyettesíti a szabályozói megfelelést, de csökkentheti a támadási felületet és közben egy kontrollmechanizmus alapja lehet.

3) Felelős AI és beszállítói kontroll (vendor governance)

A bankoknál model risk management van, az egészségügyben egyre több helyen ugyanez születik meg más néven. A vízjelezés ilyen kontrollpontokra építhető:

  • beszállĂ­tĂłi due diligence rĂ©szekĂ©nt: „tudjuk-e kĂ©sĹ‘bb igazolni a trĂ©ningforrásokat?”
  • szerzĹ‘dĂ©ses kikötĂ©shez: „ha trĂ©ning törtĂ©nt, a vĂ­zjelezĂ©s kimutatja”
  • vitás helyzetekben: gyors, kvantitatĂ­v jelzĂ©s (nem csak e-mail váltások)

Pénzügyi párhuzam: audit trail a modellek korában

A pénzügyi szektorban megszokott gondolat, hogy mindennek van nyoma: tranzakciónak, jogosultságnak, modellverziónak, adatmozgásnak. Az LLM-eknél viszont egy új típusú „nyom” kell: a tréningnyom.

Miért fontos ez bankoknak is (és miért írunk róla ebben a sorozatban)?

Mert a bankok is használnak szöveges adatot:

  • ĂĽgyfĂ©lszolgálati chat Ă©s telefonleirat
  • panaszkezelĂ©si jegyzĹ‘könyvek
  • KYC/AML dokumentáciĂłk szöveges rĂ©szei
  • belsĹ‘ szabályzatok, tudásbázisok

Ha ezek átmennek beszállítón, nagyon hasonló kérdés jön elő: készült-e belőlük általános célú modell, vagy csak a szerződés szerinti feldolgozás történt?

A healthcare és a banking tehát egy ponton találkozik: bizonyítható adathasználat.

Gyakorlati bevezetés: hogyan néz ki egy „vízjelezhető” adatkiadás?

A tanítóadat-vízjelezés akkor ér valamit, ha folyamatba kerül. Nem kell mindent azonnal átépíteni, de kell egy minimális operációs terv.

Minimális bevezetési checklist (amit én kérnék egy pilot előtt)

  1. Adatkör kijelölése: mely szövegtípusok mennek ki a szervezetből (zárójelentés-kivonat, triázs dialógusok, e-mail sablonok stb.).
  2. Kockázatbesorolás: melyik adat mehet ki vízjellel, melyik csak aggregáltan, melyik sehogy.
  3. Vízjelezési stratégia:
    • több partner esetĂ©n partnerenkĂ©nt eltĂ©rĹ‘ vĂ­zjel (hogy vitánál beazonosĂ­thatĂł legyen a forrás);
    • idĹ‘ablakok szerinti rotáciĂł (pl. 2026 Q1-es csomag kĂĽlön jelölĂ©ssel).
  4. Detektálási protokoll: mi számít „gyanús modellnek”, milyen kérdéshalmazzal tesztelünk, mi a döntési küszöb.
  5. Jog és compliance összerakása: a vízjel nem helyettesíti a szerződést; viszont a szerződésbe bele lehet írni, hogy a vízjelezés a bizonyítás része.

Konkrét példa (egészségügy): triázs-szövegek beszállítónál

Tegyük fel, hogy egy telemedicina-szolgáltató 50 000 triázs-beszélgetést ad át egy partnernek, aki egy tünetellenőrző asszisztenst finomhangol. A szolgáltató attól tart, hogy a partner később általános termékbe is beépíti a tanult mintákat.

  • A beszĂ©lgetĂ©sek egy rĂ©szĂ©t SPECTRA-szerű parafrázisos vĂ­zjellel kiadja.
  • KĂ©sĹ‘bb, ha megjelenik egy gyanĂşs modell, a szolgáltatĂł a saját tesztkĂ©rdĂ©seivel megvizsgálja, hogy a modell tokenvalĂłszĂ­nűsĂ©gei „ráülnek-e” a vĂ­zjelezett mintára.
  • Ezzel nem „bizonyĂ­tja a teljes trĂ©ningfolyamatot”, de nagyon erĹ‘s jelzĂ©st kap arrĂłl, hogy törtĂ©nt-e tanulás a csomagbĂłl.

A pénzügyi megfelelő: panaszkezelési dialógusok és call center-leiratok beszállítói felhasználása.

Gyakori kérdések, amiket döntéshozóktól hallok

„Nem rontja a modell teljesítményét, ha a szöveget megpiszkáljuk?”

A SPECTRA pont erre játszik: olyan parafrázist választ, amelynek pontszáma közel van az eredetihez, így elvileg nem okoz eloszlás-eltolódást. A gyakorlatban én akkor hinném el, ha a pilotban mérjük:

  • downsteam metrikák (pontosság, F1, hallucináciĂłs arány a saját feladatodon)
  • emberi Ă©rtĂ©kelĂ©s (orvosi/ĂĽgyfĂ©lszolgálati szakĂ©rtĹ‘k)

„Kijátszható? Mi van, ha a partner tovább paraphrazálja?”

Nincs örök védelem. Viszont a cél nem az, hogy „feltörhetetlen” legyen, hanem hogy életszerű költséget tegyen a visszaélés elé, és legyen egy skálázható detektálási mechanizmus. A kutatás állítása szerint a vízjel „túléli” a nagy léptékű LLM-tréninget; ez pont az a réteg, ahol sok korábbi módszer elvérzett.

„Ez adatbiztonság vagy szerzői jog?”

Mindkettő. Egészségügyben gyakran adatvédelemként kezdődik, de gyorsan átmegy adatlicenc és IP kérdésekbe (pl. saját annotációk, saját protokollok, saját tudásbázis). Bankban ugyanez: belső policy-k és know-how.

Merre érdemes továbbmenni 2026-ban?

A tanítóadat-vízjelezés szerintem 2026-ban ott fog igazán teret nyerni, ahol egyszerre van:

  • sok szöveges adat,
  • sok kĂĽlsĹ‘ partner,
  • Ă©s Ă©rdemi reputáciĂłs/jogi kockázat.

Az egészségügy tipikusan ilyen. A pénzügy szintén. A közös nevező: nem elég jónak lenni AI-ban; bizonyíthatóan rendben kell lenni.

Ha most tervezel beszállítói LLM-projekteket (bankban vagy egészségügyben), én ezt a kérdést tenném fel a kickoffon: „Hogyan fogjuk 6 hónap múlva bizonyítani, hogy a modell nem tanult olyan adaton, amin nem kellett volna?”

A válasz ma sokszor kínos csend. A vízjelezés – különösen a parafrázis-vezérelt megközelítés – egy olyan irány, ami ezt a csendet kézzelfogható folyamattá tudja alakítani.

Ha szeretnél egy rövid, gyakorlati pilot-tervet (adatkör-kijelölés, partnerenkénti jelölés, detektálási protokoll), érdemes most összerakni – még az első 2026-os adatkiadások előtt.