A genomikai AI-modellek soft prompt támadásokkal torzíthatók. Nézd meg, mit jelent ez a diagnosztikában, és hogyan auditáld SAGE-szerűen.

AI-biztonság a genomikában: így támadhatók a diagnózismodellek
A klinikai genetikai diagnosztika egyik csendes motorja ma már nem csak a szekvenáló gép, hanem a háttérben futó genomikai alapmodell is. Az olyan modellek, mint az ESM (Evolutionary Scale Modeling) család, egyre több helyen jelennek meg variáns-hatás előrejelzésben, kutatási pipeline-okban, sőt diagnosztikai döntéstámogatásban is. És van egy kellemetlen igazság: a „pontosság” nem ugyanaz, mint a „biztonság”.
2025.12.22-én friss arXiv-közlemény hívta fel a figyelmet arra, hogy még a csúcskategóriás genomikai modellek (például ESM2) is érzékenyek célzott, úgynevezett soft prompt támadásokra. A tanulmány egy SAGE nevű, ügynök-alapú (agentic) audit keretrendszert mutat be, amely automatizáltan keresi és méri ezeket a sebezhetőségeket. Egészségügyi AI-rendszereknél ez nem elméleti kérdés: ha egy diagnosztikai modell manipulálható, a kockázat betegbiztonsági kérdéssé válik.
Ebben a „Mesterséges intelligencia az egészségügyben” sorozatba illeszkedő cikkben közérthetően elmagyarázom:
- mit jelent a soft prompt támadás egy genomikai modellnél,
- miért számít ez klinikai variánsinterpretációban,
- hogyan működik a SAGE-féle kockázataudit,
- és mit tehet egy egészségügyi szervezet már holnap, hogy csökkentse a kitettséget.
Miért célpontok a variáns-előrejelző modellek az egészségügyben?
Válasz röviden: azért, mert a variáns-hatás előrejelzés a diagnosztikai lánc kritikus pontja, és egy kis torzítás is nagy klinikai következményekhez vezethet.
A variánsinterpretáció gyakran úgy néz ki a gyakorlatban, hogy a labor és a klinikus több jelből rakja össze a képet: populációs gyakoriság, családi segregáció, funkcionális adatok, irodalmi bizonyítékok – és egyre gyakrabban gépi tanulásos predikciók. Ezek az AI-alapú prediktorok tipikusan nem „kimondják a diagnózist”, hanem valószínűséget vagy pontszámot adnak arra, hogy egy aminosavcsere (vagy más variáns) mennyire valószínű, hogy káros.
A gond ott kezdődik, hogy a modern genomikai alapmodellek (GFMs) bonyolult, nagy dimenziós reprezentációkat tanulnak a fehérjeszekvenciákból. Ez elképesztően hasznos – de a biztonsági oldalról azt is jelenti, hogy:
- a döntés nem könnyen „visszafejthető” emberi szabályokra,
- a modell viselkedése változhat apró, látszólag ártalmatlan bemeneti módosításokra,
- és létezhetnek olyan beavatkozások, amelyek nem a modellt hackelik meg, hanem a modell környezetét vagy beágyazási terét manipulálják.
Ha egy kórház vagy diagnosztikai szolgáltató AI-t használ, a kérdés 2026-ban már nem az, hogy „használjunk-e AI-t?”, hanem hogy milyen minőségbiztosítással és támadási modell mellett használjuk.
Egészségügyi következmény: az „észrevétlen” teljesítményromlás
A tanulmány kulcsüzenete: célzott soft prompt perturbációk mellett mérhetően romlik a teljesítmény (például AUROC/AUPR mutatókon). Klinikai kontextusban ez azt jelenti, hogy több lehet:
- hamis negatív (káros variáns „ártalmatlannak” tűnik),
- hamis pozitív (jóindulatú variáns „kórosnak” látszik),
- vagy egyszerűen több VUS (bizonytalan jelentőségű variáns), ami lassítja a döntést.
Ezek közül bármelyik drága. Nem csak pénzben – időben, betegúti csúszásban, felesleges vizsgálatokban.
Soft prompt támadások: nem a szekvenciát írják át, hanem a „kontekstukat”
Válasz röviden: a soft prompt támadás egy olyan manipuláció, ami nem feltétlenül a bemeneti szekvenciát módosítja, hanem a modell belső „irányításához” ad hozzá apró, tanult perturbációt az embedding térben.
A klasszikus adverzariális példákat sokan a képfeldolgozásból ismerik: pár pixel módosul, és a modell már mást lát. A genomikai modelleknél hasonló a dinamika, csak itt a „pixelek” helyett szekvencia-tokenek és embeddingek vannak.
A soft prompt lényege, hogy a támadó (vagy egy rosszul védett integráció) kiegészítő, tanult vektorokat fűz a modell bemenetéhez vagy a reprezentációhoz. Ezek a vektorok úgy viselkednek, mint egy rejtett instrukció: bizonyos irányba tolják a modell válaszát.
Ami miatt ez egészségügyben különösen veszélyes:
- Nincs feltétlenül „szemmel látható” nyoma. A bemeneti szekvencia akár érintetlen is maradhat.
- Célzott lehet. Nem csak „rosszabb lesz” a modell, hanem egy adott fehérjecsaládra vagy variánstípusra torzíthat.
- Ellátási láncban is megjelenhet. Például egy külső pipeline-komponens, plugin, vagy rosszul verziózott inference-környezet révén.
Snippet-mondat: A soft prompt támadás nem a modellt cseréli ki, hanem a modellt „félrevezeti”.
Mit csinál a SAGE, és miért jó az ügynök-alapú kockázataudit?
Válasz röviden: a SAGE egy automatizált audit-loop, ami soft prompt perturbációkat injektál, több checkpointon követi a viselkedést, AUROC/AUPR alapján mér, és strukturált kockázati riportot generál.
A kutatás egyik legpraktikusabb része az, hogy nem elég annyit mondani: „van sebezhetőség”. A SAGE azt próbálja megoldani, amit a kórházi valóság is megkövetel: folyamatos minőség- és biztonságmonitorozást, lehetőleg emberi erőforrás-faló kézi tesztelés nélkül.
A SAGE audit ciklusa (egészségügyi szemmel)
A tanulmány alapján a SAGE nagyjából ezt a logikát követi:
- Támadási inger (soft prompt) injektálása a modell köré úgy, hogy magát az alapmodellt nem módosítja.
- Viselkedés monitorozása több tanítási checkpointon (ez fontos: a „robosztusság” tanulás közben is változhat).
- Kockázati metrikák számítása, pl. AUROC és AUPR – ez a diagnosztikai predikcióknál bevett, jól kommunikálható mérés.
- Strukturált riport készítése, amelyet a szerzők szerint egy LLM narratív magyarázattal is kiegészít.
A nagy előny: ez a megközelítés nem egyszeri pentest, hanem egy rendszeres auditálható folyamat. Egészségügyi AI-nál pont erre van szükség: ha változik a modellverzió, az adat, a környezet vagy az integráció, a kockázat is változhat.
Mit mond a tanulmány eredménye az ESM2-ről?
A szerzők fő állítása: még a state-of-the-art ESM2 is érzékeny célzott soft prompt támadásokra, ami mérhető teljesítményromlást okoz.
Ez azért fontos üzenet, mert sok szervezet fejben úgy osztályozza a kockázatot, hogy „ha nagy modell és nagy név, akkor biztos erős”. A valóság inkább az: a teljesítmény és a robosztusság két külön KPI.
Hogyan néz ki egy reális támadási forgatókönyv klinikai környezetben?
Válasz röviden: a legvalószínűbb kockázat nem a hollywoodi „feltörik a kórházat” sztori, hanem a beszállítói és integrációs láncban megjelenő, észrevétlen torzítás.
A legtöbb egészségügyi AI-incidensnél (akár adat-, akár modelloldalon) a gyenge pontok tipikusan:
- rosszul kezelt API-kulcsok és jogosultságok,
- nem verziózott modellek/pipeline-ok,
- ellenőrizetlen „utility” kódok,
- túl nagy bizalom a harmadik féltől jövő komponensekben.
Példa: variáns-értékelő pipeline „apró” változással
Képzelj el egy laborpipeline-t, ahol a szekvenciákból embedding készül, majd arra jön egy variáns-hatás prediktor. Ha az embedding előállításánál vagy a modell körüli wrapperben megjelenik egy soft prompt jellegű perturbáció (akár „optimalizáció” címkével), az:
- bizonyos génekre következetesen eltolhatja a pontszámokat,
- és a csapat hetekig csak annyit lát, hogy „furcsa lett a találati arány”.
Ez a legrosszabb fajta hiba: nem áll le a rendszer, csak csendben romlik.
Mit érdemes most bevezetni? Gyakorlati kontrollok 30 napra bontva
Válasz röviden: először mérj (baseline), aztán zárd a támadási felületeket (integráció), végül tedd folyamattá (folyamatos audit).
A tanulmány üzenete számomra az, hogy a genomikai AI-t ugyanúgy kell kezelni, mint bármely kritikus egészségügyi szoftvert: verifikáció, monitorozás, változáskezelés. Itt egy reális, rövid távú terv.
0–7 nap: „Mi fut élesben?” leltár és baseline
- Modell- és pipeline-verziók leltára (hash, build, konfiguráció).
- Baseline teljesítmény rögzítése (AUROC/AUPR + kalibrációs görbe, ha van rá mód).
- Minimum: bontás génpanelre / betegségcsoportra (ne csak egy átlagot nézz).
7–14 nap: integrációs támadási felület csökkentése
- Soft prompt jellegű komponensek tiltása/korlátozása, ha van ilyen a stackben.
- Jogosultságok szigorítása (ki írhat konfigurációt, ki deployolhat modellt).
- Artefakt-szignálás és ellenőrzés: csak aláírt, jóváhagyott modellek kerülhetnek élesbe.
14–30 nap: folyamatos audit és riasztás
- Adverzariális/robosztussági tesztcsomag bevezetése (SAGE-szerű logikával):
- kontrollált perturbációk,
- rendszeres futtatás (pl. heti),
- eltérésriasztás (drift + teljesítményromlás).
- Riport formátum standardizálása, hogy a QA és az orvosszakmai vezetés is értse.
Snippet-mondat: A biztonság nem feature, hanem üzemeltetési ritmus.
„People also ask” – gyors válaszok a leggyakoribb kérdésekre
„Ez azt jelenti, hogy a genomikai AI nem megbízható?”
Nem. Azt jelenti, hogy biztonsági audit nélkül nem tekinthető klinikai szintűen kontrolláltnak. A megbízhatóságot bizonyítani és fenntartani kell.
„A soft prompt támadás csak kutatólaboros probléma?”
Nem. A módszer lényege, hogy a modell körül is lehet manipulálni. Ez az egészségügyi IT-ban gyakran valószínűbb, mint a modell belső paramétereinek direkt módosítása.
„Mit kérjek a beszállítómtól vagy fejlesztőcsapattól?”
Három dolgot:
- Robosztussági tesztek (nem csak pontossági riport).
- Verziózás és reprodukálhatóság (minden futás visszakövethető).
- Folyamatos monitoring (riasztás, ha romlik a teljesítmény vagy eltolódik a bemenet).
Mit jelent ez a „Mesterséges intelligencia az egészségügyben” sorozat szempontjából?
A diagnosztikai AI-ról szóló beszélgetések Magyarországon is kezdenek érettebbé válni: már nem az a fő kérdés, hogy „jobb-e az AI”, hanem hogy milyen kontrollokkal engedjük be a betegellátásba. A SAGE és a soft prompt sebezhetőségek témája pont azért fontos, mert a genomikai predikció sokszor „háttérkomponensnek” tűnik – holott a döntés-előkészítésben kulcsszereplő.
Ha egészségügyi vezetőként, informatikai vezetőként vagy innovációs felelősként egy dolgot viszel magaddal: a modellvalidáció nem ér véget az AUC-görbével. A biztonsági és robosztussági audit ugyanúgy része a betegbiztonságnak, mint a labor minőségirányítása.
Ha szeretnéd, a következő lépésben szívesen adok egy 1 oldalas ellenőrzőlistát arra, hogyan nézzen ki egy „AI-biztonság a diagnosztikában” audit (genomika + képalkotás + triázs rendszerek) – és mik a tipikus gyors nyereségek 2–4 hét alatt.
A kérdés, amit 2026 elején minden AI-t használó egészségügyi szervezetnek fel kell tennie: ha holnap megváltozna a modell viselkedése egy rejtett perturbáció miatt, észrevennénk-e időben?