Az ellenĹ‘rizhetĹ‘, auditálhatĂł AI-ĂĽgynökök nĂ©lkĂĽl nincs biztonságos autonĂłmia az egĂ©szsĂ©gĂĽgyben. NĂ©zd meg, mit ad a Verifiability-First megközelĂtĂ©s.

Ellenőrizhető AI-ügynökök: bizalom a diagnosztikában
2025 vĂ©gĂ©n egyre több szervezet nem „chatbotot” vezet be, hanem autonĂłm AI-ĂĽgynököt: olyat, ami eszközöket használ, adatokat kĂ©r le, javaslatokat ad, sĹ‘t bizonyos folyamatokat el is indĂt. Az egĂ©szsĂ©gĂĽgyben ez csábĂtĂł (gyorsabb triázs, okosabb telemedicina, kevesebb admin), de van egy kellemetlen mellĂ©khatás: ha nem tudjuk bizonyĂtani, mit tett az ĂĽgynök Ă©s miĂ©rt, akkor valĂłjában nem kontrolláljuk.
A most megjelent kutatás (Verifiability-First Agents) szerint az Ă©rtĂ©kelĂ©s fĂłkuszát el kell tolni: nem elĂ©g azt mĂ©rni, hogy mennyire valĂłszĂnű a fĂ©lrecsĂşszás (misalignment), hanem azt kell mĂ©rni, hogy milyen gyorsan Ă©s megbĂzhatĂłan Ă©szlelhetĹ‘ Ă©s javĂthatĂł, ha az ĂĽgynök eltĂ©r a szándĂ©kolt működĂ©stĹ‘l. Nekem ez kĂĽlönösen ismerĹ‘s a kritikus rendszerek világábĂłl: nem attĂłl lesz biztonságos egy rendszer, hogy „remĂ©ljĂĽk, nem hibázik”, hanem attĂłl, hogy hibázás esetĂ©n nyomot hagy, megállĂthatĂł Ă©s visszafejthetĹ‘.
És igen: miközben ez a cikk a többĂĽgynökös LLM-rendszerekrĹ‘l szĂłl, a tanulság meglepĹ‘en jĂłl illik a precĂziĂłs mezĹ‘gazdaság világához is. A gazdaságban ugyanĂşgy megjelennek az autonĂłm döntĂ©si láncok (permetezĂ©s idĹ‘zĂtĂ©se, öntözĂ©s, hozam-elĹ‘rejelzĂ©s), Ă©s ott is ugyanaz a kĂ©rdĂ©s: ha baj van, ki Ă©s hogyan bizonyĂtja, mi törtĂ©nt?
MiĂ©rt pont a „bizonyĂthatĂłság” a szűk keresztmetszet?
A lényeg egyszerű: az autonóm LLM-ügynök nem csak szöveget generál, hanem cselekszik. Eszközökhöz fér hozzá (adatbázis, EHR, naptár, rendelési rendszer), láncolt lépéseket hajt végre, és a „személyisége” vagy a kapott rejtett instrukciók is befolyásolhatják.
Az egészségügyben ez azért kritikus, mert a kockázat nem csak pénzügyi vagy reputációs. Betegbiztonsági kérdés. Egy telemedicinás ügynök például:
- rossz prioritást adhat (pl. sĂĽrgĹ‘s tĂĽnetet „ráérĹ‘snek” minĹ‘sĂt),
- nem megfelelő protokollt javasolhat,
- vagy egy eszközhasználati lĂ©pĂ©snĂ©l (pl. recept-elĹ‘kĂ©szĂtĂ©s, beutalĂł generálás) hibás adatot Ărhat be.
A mezĹ‘gazdaságban pedig ugyanez lefordĂthatĂł:
- rossz idĹ‘járási ablakban indĂtja el az öntözĂ©st,
- félreértelmez egy szenzorhibát és túlpermetez,
- rossz táblára ad ki munkautasĂtást.
A közös pont: ha nincs ellenőrizhető nyomvonal, a hiba utólag „szóbeszéd” marad.
A Verifiability-First megközelĂtĂ©s: ellenĹ‘rizhetĹ‘sĂ©g alapbĂłl
A cikk három egymásra épülő elemet javasol. Nem a „még okosabb ügynök” a cél, hanem a kontrollálható ügynök.
1) Futásidejű attesztáciĂł: mit tett az ĂĽgynök, bizonyĂthatĂłan?
Az architektúra egyik alapköve a run-time attestation, azaz futás közbeni igazolás arról, hogy az ügynök milyen lépéseket hajtott végre. A szerzők kriptográfiai és szimbolikus módszerek kombinálásáról beszélnek.
EgĂ©szsĂ©gĂĽgyi pĂ©ldára fordĂtva: amikor az ĂĽgynök lekĂ©r egy labort, majd protokoll alapján triázsol, minden eszközhasználat Ă©s döntĂ©si pont rögzĂthetĹ‘ Ăşgy, hogy utĂłlag ne lehessen „szĂ©pĂteni” a törtĂ©netet.
MezĹ‘gazdasági analĂłgia: ha egy ĂĽgynök drĂłnfelvĂ©tel alapján kártevĹ‘-gyanĂşt jelez, majd permetezĂ©si javaslatot kĂĽld, a rendszer kĂ©pes lehet bizonyĂthatĂłan naplĂłzni, hogy melyik kĂ©pre, melyik modellkimenetre Ă©s melyik szabályra támaszkodott.
2) Könnyű audit ügynökök: folyamatos „szándék vs. viselkedés” ellenőrzés
A második elem a lightweight Audit Agent: egy kisebb, korlátozottabb következtetĂ©sre kĂ©pes modul, amely folyamatosan azt figyeli, hogy a tĂ©nyleges viselkedĂ©s megfelel-e a telepĂtĹ‘ (kĂłrház, rendelĹ‘, szolgáltatĂł) szándĂ©kának.
Ez azĂ©rt jĂł irány, mert a „biztonság” sokszor nem egy hatalmas modellbĹ‘l jön, hanem abbĂłl, hogy van egy fĂĽggetlen ellenĹ‘r. A korlátozott logika itt elĹ‘ny: kevesebb a kreatĂv kibĂşvĂł, egyszerűbb a validáciĂł.
Praktikus egészségügyi ellenőrzések, amiket egy audit ügynök végezhet:
- Hatókör-ellenőrzés: hozzáfért-e olyan betegadathoz, ami nem kellett a feladathoz?
- Protokoll-követés: megfelel-e a javaslat a helyi triázs szabályoknak?
- Eszközhasználati korlát: indĂtott-e magas kockázatĂş műveletet (pl. gyĂłgyszerrendelĂ©s elĹ‘kĂ©szĂtĂ©s) megfelelĹ‘ jĂłváhagyás nĂ©lkĂĽl?
Agrártechnikában ugyanez:
- Gépkapcsolat-ellenőrzés: adott-e ki parancsot a gépnek tiltott időablakban?
- DĂłzis-korlát: ajánlott-e a cĂmke/elĹ‘Ărás feletti kijuttatást?
- Szenzor-hitelesség: egyezik-e több forrás (talajnedvesség + időjárás + NDVI) jelzése?
3) Challenge–response protokoll: magas kockázatnál ne „csendben” történjen
A harmadik elem egy kihĂvás–válasz (challenge-response) alapĂş attesztáciĂł magas kockázatĂş műveletek elĹ‘tt. Magyarul: ha az ĂĽgynök olyan lĂ©pĂ©shez Ă©r, ami nagyot ĂĽthet, meg kell állnia Ă©s bizonyĂtania kell, hogy jogosan teszi.
Ez nagyon jól illik egészségügyi környezetben a „kétkulcsos” gondolkodáshoz:
- gyĂłgyszerváltás vagy dĂłzismĂłdosĂtás elĹ‘kĂ©szĂtĂ©se,
- sürgős ellátási kategória megadása,
- érzékeny adatok exportja.
A mezőgazdaságban pedig:
- automatikus permetezĂ©s indĂtása,
- nagy vĂzmennyisĂ©get mozgatĂł öntözĂ©si ciklus,
- költséges input rendelésének kezdeményezése.
A minta ugyanaz: előbb igazolás, utána végrehajtás.
OPERA benchmark: nem az a kérdés, hogy lesz-e baj, hanem hogy mikor vesszük észre
A szerzők OPERA néven (Observability, Provable Execution, Red-team, Attestation) benchmarkot és értékelési protokollt javasolnak. Nekem ebben a legszimpatikusabb, hogy a metrikák végre „üzemeltetési” szagúak:
- Detectability: mennyire észlelhető a félrecsúszás?
- Time to detection: mennyi idő alatt bukik le, ha az ügynök alattomosan próbál eltérni?
- Resilience: mennyire bĂrja a rendszer a prompt- Ă©s persona-injektálást (amikor valaki rábeszĂ©li az ĂĽgynököt, hogy „máskĂ©nt” viselkedjen)?
Ez a logika az egészségügyi AI bevezetésnél aranyat ér. A valódi kérdés sokszor nem az, hogy hibázik-e (hibázni fog), hanem:
„Milyen gyorsan vesszük észre, és vissza tudjuk-e fejteni pontosan, mi történt?”
A telemedicinában például a „time to detection” akár betegbiztonsági KPI is lehet: ha egy ügynök rossz irányba terel betegeket, a rendszernek órákon belül jeleznie kell, nem hetek múlva egy audit során.
A mezĹ‘gazdaságban a detektálási idĹ‘ pĂ©nz: ha a rendszer rossz öntözĂ©si döntĂ©st hoz, a kár pár nap alatt materializálĂłdik (stressz, betegsĂ©gek, hozamcsökkenĂ©s). Itt is számĂt, hogy az anomália mĂ©g a következĹ‘ ciklus elĹ‘tt kiderĂĽljön.
Hogyan néz ki ez a gyakorlatban egészségügyi AI-nál?
A gyors válasz: Ăşgy, hogy a LLM-ĂĽgynök körĂ© ellenĹ‘rzĂ©si keretrendszert Ă©pĂtĂĽnk, nem pedig „ráengedjĂĽk” a folyamatokra.
Minimális, de működő bevezetési minta (pilothoz)
Ha egy kĂłrház vagy telemedicina szolgáltatĂł most indĂt pilotot, Ă©n ezt a sorrendet tartanám racionálisnak:
- Eszközhasználat szűkĂtĂ©se: elĹ‘ször csak olvasás, kĂ©sĹ‘bb Ărás/indĂtás.
- KötelezĹ‘ műveleti naplĂł: minden tool call, paramĂ©ter Ă©s válasz rögzĂtĂ©se.
- Audit ügynök: szabályalapú és korlátozott logikájú ellenőr (pl. protokollok, hatókörök).
- KihĂvás–válasz magas kockázatnál: humán jĂłváhagyás vagy kriptográfiai attesztáciĂłs lĂ©pĂ©s.
- Red-team gyakorlatok: célzott persona/prompt injekciós próbák.
A legnagyobb hiba, amit látok: az ĂĽgynök kap egy csomĂł eszközt „kĂ©nyelmi okbĂłl”, aztán utĂłlag prĂłbálják megfejteni, mi törtĂ©nt. FordĂtva kell.
„People also ask” – rövid, egyenes válaszok
Miben más az auditálható AI, mint egy sima naplózás?
Az auditálhatĂł AI nem csak logol, hanem bizonyĂthatĂłan összeköti a döntĂ©st az eszközhasználattal Ă©s a szabályokkal, Ă©s jelzi a szándĂ©ktĂłl valĂł eltĂ©rĂ©st.
Miért kell külön audit ügynök, miért nem elég maga a nagy modell?
Mert a nagy modell egyszerre bĂrĂł Ă©s vádlott lenne. A kĂĽlön audit ĂĽgynök fĂĽggetlen, korlátozott, Ăgy kiszámĂthatĂłbb.
Hol jön be a persona-injekció a valóságban?
PĂ©ldául belsĹ‘ dokumentumokban elrejtett instrukciĂłkkal, rosszul elkĂĽlönĂtett rendszerprompttal, vagy felhasználĂłi ĂĽzenetekkel, amelyek rábeszĂ©lik az ĂĽgynököt tiltott lĂ©pĂ©sekre.
Mit viszĂĽnk át ebbĹ‘l az agrártechnolĂłgiába (Ă©s miĂ©rt számĂt a sorozat szempontjábĂłl)?
A „Mesterséges intelligencia a mezőgazdaságban és agrártechnológiában” sorozatban gyakran beszélünk modellekről: betegségfelismerés, hozam-előrejelzés, erőforrás-optimalizálás. A következő szint viszont az, amikor ezekből autonóm ügynökrendszer lesz: javasol, majd cselekszik.
A Verifiability-First gondolat lényege, hogy az autonómia csak akkor vállalható, ha az ügynök:
- megfigyelhető (mi történik),
- bizonyĂthatĂłan vĂ©grehajthatĂł/ellenĹ‘rizhetĹ‘ (miĂ©rt Ă©s hogyan törtĂ©nt),
- támadható tesztkörnyezetben (red-team),
- és van attesztáció a kockázatos lépések előtt.
Ha ezt most beĂ©pĂtjĂĽk agrár rendszerekbe, kĂ©sĹ‘bb sokkal könnyebb lesz a skálázás: kevesebb „fekete doboz” vita, gyorsabb hibakeresĂ©s, Ă©s több bizalom a döntĂ©stámogatás iránt.
Mit érdemes most megtenni, ha AI-ügynököt tervezel egészségügyben?
A legfontosabb lĂ©pĂ©s: a verifikálhatĂłságot követelmĂ©nykĂ©nt Ărd be a specifikáciĂłba, ne utĂłlagos „compliance” feladatkĂ©nt.
Gyakorlati következő lépések, amik 30 napon belül is elkezdhetők:
- KĂ©szĂts kockázati műveletlistát (mi számĂt „high-risk”-nek a szervezetben).
- Határozd meg a minimális attesztációs pontokat (hol kell megállni és igazolni).
- Vezess be audit szabályokat (hatókör, protokoll, eszközhasználat) és mérd a riasztások minőségét.
- Tervezd meg a „time to detection” célt (pl. 30 perc / 4 óra / 24 óra), és monitorozd.
A bizalom nem PR-kampányból épül, hanem abból, hogy egy rendszer akkor is „beszél”, amikor hibázik.
A kĂ©rdĂ©s, ami 2026-ban egyre több egĂ©szsĂ©gĂĽgyi Ă©s agrár szereplĹ‘ asztalán ott lesz: kĂ©szen állunk-e arra, hogy az autonĂłm AI-ĂĽgynökök döntĂ©seit ne csak elfogadjuk, hanem bizonyĂthatĂłan ellenĹ‘rizzĂĽk is?