Tényellenőrzött orvosi AI-válaszok: így épül a bizalom

Mesterséges intelligencia az egészségügybenBy 3L3C

Orvosi LLM-eknél a faktualitás a kulcs. Tudásgráf-alapú ellenőrzéssel a válaszok állításai gépileg mérhetők és magyarázhatók.

egészségügyi AILLMtényellenőrzéstudásgráftelemedicinabiztonságmagyarázható AI
Share:

Featured image for Tényellenőrzött orvosi AI-válaszok: így épül a bizalom

Tényellenőrzött orvosi AI-válaszok: így épül a bizalom

Egy rossz orvosi tanács nem „csak” kellemetlen: rossz gyógyszerszedéshez, késlekedő diagnózishoz vagy felesleges vizsgálatokhoz vezethet. Ezért amikor nagy nyelvi modelleket (LLM-eket) engedünk közel a betegkommunikációhoz, triázshoz vagy klinikai döntéstámogatáshoz, a legfontosabb kérdés nem az, hogy mennyire választékosan fogalmaznak, hanem az, hogy igazat mondanak-e.

A friss, AAAI’26 konferenciára elfogadott kutatás (FAITH keretrendszer) pont erre ad egy használható, mérnöki választ: automatizált tényellenőrzést végez orvosi LLM-válaszokon úgy, hogy közben nem igényel előre megírt „helyes megoldást” (referenciaválaszt). Ehelyett az állításokat orvosi tudásgráfokhoz köti, és bizonyítéki útvonalak alapján pontoz. A lényeg: az AI-t nem „szépen beszélni” tanítjuk, hanem elszámoltathatóan állítani.

Ez a cikk a „Mesterséges intelligencia az egészségügyben” sorozat része. A sorozatban sokat beszélünk diagnosztikáról, telemedicináról és működésoptimalizálásról – most viszont arról a rétegről lesz szó, amit a legtöbb szervezet alulbecsül: a megbízhatóság méréséről és bizonyíthatóságáról.

Miért bukik el a legtöbb „orvosi chatbot” a valóságban?

A probléma egyszerű: a nyelvi modell meggyőző szöveget gyárt. A klinikai környezet viszont ellenőrizhető állításokat kér.

A klasszikus értékelési módszerek (például „hasonlít-e a válasz a mintamegoldásra?”) az egészségügyben gyakran falnak mennek:

  • Sok kérdésre több elfogadható válasz létezik (különböző irányelvek, beteg-specifikus tényezők).
  • A referenciaválasz gyorsan elavulhat (új ajánlások, gyógyszerfigyelmeztetések).
  • A „szöveg-minőség” (folyékonyság) könnyen elfedi a tényhibákat.

A telemedicina és a digitális triázs 2025 végére már nem kísérlet sok helyen, hanem napi rutin. Itt egyetlen félrecsúszott állítás is komoly kockázat:

Az egészségügyi LLM-eknél a legveszélyesebb hiba nem a stílus, hanem a magabiztos tévedés.

Mit ad hozzá a FAITH: tényellenőrzés referenciaválasz nélkül

A FAITH keretrendszer központi állítása: az orvosi LLM-válaszok faktualitása automatizáltan mérhető, ha a választ atomikus állításokra bontjuk, majd ezeket tudásgráfban kereshető tényekhez kötjük.

1) Atomikus állítások: a „mondat” túl nagy egység

A klinikai tévedések gyakran apró csúszások:

  • „A gyógyszer X csökkenti a vérnyomást” (lehet igaz)
  • „…és terhességben biztonságos” (lehet hamis)

Egy összetett mondatban ezek összefolynak. Az atomikus bontás lényege, hogy minden ellenőrizhető darab külön pontot kapjon.

Gyakorlati példa (egyszerűsítve):

  • Állítás A: „A metformin első vonalbeli szer 2-es típusú diabéteszben.”
  • Állítás B: „Súlyos vesekárosodás esetén kerülendő.”

Ezek külön-külön ellenőrizhetők.

2) Tudásgráf: nem „keresés”, hanem kapcsolati bizonyíték

A tudásgráf (KG) olyan strukturált háló, ahol entitások (betegségek, gyógyszerek, mellékhatások) és kapcsolatok (indikáció, kontraindikáció, interakció) alkotnak egy ellenőrizhető rendszert.

A FAITH nem csak azt nézi, hogy szerepel-e egy kifejezés, hanem azt, hogy létezik-e bizonyítéki útvonal az állítás entitásai között.

  • Ha a gráfban van útvonal, az állítás erősebb.
  • Ha nincs útvonal, az állítás gyanús vagy nem lefedett.

3) Pontozás és magyarázhatóság: nem fekete doboz

A kutatás egyik erős pontja, hogy a pontszám mögé lehet nézni. A felhasználó (orvos, minőségbiztosítás, termékfelelős) nem csak azt kapja meg, hogy „jó/rossz”, hanem azt is, hogy:

  • mely atomikus állítások problémásak,
  • milyen bizonyíték (útvonal) támasztja alá vagy nem támasztja alá,
  • hol vannak lefedetlenségi lyukak.

Ez a különbség aközött, hogy „a modell 82%-os”, és aközött, hogy konkrétan megmutatom, melyik állításnál csúszik el.

Mit mutattak a kísérletek: közelebb az orvosi megítéléshez

A tanulmány lényege nem az, hogy „a tudásgráf mindent megold”, hanem az, hogy jobban együtt mozog a klinikusok ítéletével, mint sok hagyományos automatikus mérőszám.

A szerzők több orvosi feladaton vizsgálták a megközelítést, és emberi (szubjektív) értékeléssel vetették össze. Az üzenet számomra három részből áll:

Jobb korreláció a klinikusi értékeléssel

A KG-alapú értékelés „érzékenyebb” a tényhibákra, miközben kevésbé bünteti a stílusbeli eltéréseket. Ez fontos, mert a valós életben a modell válasza ritkán lesz szó szerint olyan, mint egy referenciaminta.

Különbséget tud tenni LLM-ek között

Ha két modell hasonlóan folyékonyan fogalmaz, a felhasználó könnyen azt gondolja: „ugyanazt tudják”. A FAITH-típusú mérés segít képességszintet elkülöníteni faktualitás mentén.

Robusztus a szövegváltozatokra

Ugyanazt az állítást lehet többféleképp megfogalmazni. A KG-kötés miatt az értékelés kevésbé „szövegfüggő”. Ez telemedicinában kifejezetten hasznos, mert a betegkérdések és a válaszstílusok erősen variálnak.

Mire jó ez itthon: telemedicina, triázs, diagnózistámogatás

A FAITH gondolatvilága nem egy akadémiai luxus. Szerintem ez az a hiányzó réteg, amitől a „pilótából” termék lesz.

Telemedicina: biztonságosabb betegkommunikáció

A telemedicinás csatornákban gyakoriak a „mikor forduljak orvoshoz?” típusú kérdések. Itt a veszély tipikusan:

  • alultriázs („nem sürgős”), amikor az,
  • gyógyszeres állítások (kontraindikációk, interakciók),
  • téves általánosítás (egy rizikócsoport kimarad).

KG-alapú tényellenőrzéssel a rendszer képes lehet riasztani, ha a válasz olyan állítást tartalmaz, amit a tudásgráf nem támaszt alá.

Diagnózistámogatás: állítás-szintű kontroll

LLM-eket sokan használnak differenciáldiagnózis ötletelésre. Ez önmagában nem baj, de a kontroll nélküli „ötletlista” könnyen túl nagy súlyt kap.

A jobb út: a modell ad javaslatot, majd a rendszer állításokra bontja, és ellenőrzi például:

  • „Tünet X összefügg állapottal Y”
  • „Vizsgálat Z első lépésként indokolt”

A cél nem az, hogy az AI „felülírja” az orvost, hanem hogy ne csússzanak be hamis ok-okozatok.

Működésoptimalizálás: minőségbiztosítás skálán

Ha egy kórházi informatikai csapat LLM-et vezet be (pl. zárójelentés-összefoglalás, betegút-tájékoztatás), akkor a minőségbiztosítás nem maradhat kézi mintavételezés.

KG-alapú automatikus ellenőrzéssel létrehozható:

  • napi „faktualitás dashboard”,
  • kockázatos állítástípusok listája (pl. dózis, kontraindikáció),
  • modellverziók összehasonlítása élesben.

A valós korlátok: hol téved a tudásgráf-alapú megközelítés?

A jó hír: ez a megoldás erős. A rossz hír: nem varázspálca.

1) Lefedetlenség: ami nincs a gráfban, az „nem bizonyítható”

Ritka betegségek, friss irányelvfrissítések, helyi protokollok. Ha a KG nem tartalmazza, az állítás alulértékelődhet.

Mit érdemes csinálni?

  • A legfontosabb klinikai területeken (belgyógyászat, sürgősségi, gyógyszerbiztonság) célzott gráfbővítés.
  • Verziókezelés: mikor frissült a gráf, milyen forrásból.

2) Kontextus: „igaz”, de nem ennek a betegnek

Az orvoslás tele van „attól függ” helyzetekkel. Egy állítás lehet általánosan igaz, de egy konkrét betegre hamis (pl. életkor, vesefunkció, terhesség).

Itt a tudásgráf mellé kell:

  • strukturált betegkontekts (labor, anamnézis),
  • szabályok vagy klinikai korlátozások (pl. GFR küszöbök).

3) Nyelvi kötés és entitásfelismerés

Magyar nyelven a ragozás, szinonimák, rövidítések (pl. „HT”, „DM2”) extra kihívás. Ha az entitáslinkelés pontatlan, a pontozás is az lesz.

A gyakorlati tanulság: magyar telemedicinás terméknél érdemes külön foglalkozni a magyar orvosi terminológia normalizálásával.

Hogyan építs be tényellenőrzést egy egészségügyi AI-folyamatba (gyakorlatiasan)

Ha én ma (2025 végén) egészségügyi LLM-rendszert vezetnék be, ezt a „minimálisan ésszerű” kontrollt tenném köré.

1) Határozd meg, mit jelent nálatok a „tényhiba”

Nem minden hiba egyformán veszélyes. Célszerű súlyozni:

  • kritikus: dózis, kontraindikáció, sürgősségi tünetek
  • közepes: kiegészítő információk, életmódtanácsok
  • alacsony: definíciók, általános háttér

2) Válasz → állítások → KG-ellenőrzés → döntés

Egy jól működő pipeline tipikusan:

  1. LLM generál
  2. állításbontás
  3. entitáslinkelés
  4. KG-bizonyíték keresés
  5. összpontszám + „piros zászlók”
  6. akció: megjelenítés / figyelmeztetés / emberi felülvizsgálat

3) Tedd láthatóvá a magyarázatot a felhasználónak

A magyarázhatóság nem extra, hanem biztonsági funkció. Ha a rendszer azt mondja: „ez az állítás nem támasztható alá”, akkor a klinikusnak látnia kell, melyik állításról van szó.

4) Indíts szűk területen, ahol nagy a nyereség

Három „jó belépési pont”:

  • gyógyszer-interakciók és kontraindikációk ellenőrzése
  • telemedicinás triázs figyelmeztetések
  • betegoktató anyagok faktualitás-szűrése

Gyakori kérdések, amik felmerülnek döntéshozóknál

„Ez kiváltja a klinikust?”

Nem. A legjobb felhasználás az, amikor a rendszer kiszűri a problémás állításokat, és csökkenti a felülvizsgálati terhet. A felelősség és döntés klinikai marad.

„Mi van, ha a gráf téved vagy elavult?”

A tudásgráf is egy adattermék. Ugyanúgy kell kezelni, mint egy gyógyszertörzset: verzió, frissítés, audit. A nyereség, hogy legalább explicit tudásról beszélünk, nem rejtett modellparaméterekről.

„Megéri ezzel foglalkozni?”

A tapasztalatom az, hogy a legtöbb AI-projekt nem azért bukik el, mert a modell „nem elég okos”, hanem mert nincs bizalomtechnológia köré építve: mérés, kontroll, visszacsatolás. A KG-alapú tényellenőrzés pont ezt a rést tölti.

Merre tart ez 2026-ban: az AI már nem csak válaszol, hanem felel

A FAITH és a tudásgráf-alapú faktualitásmérés egy irányt erősít meg: az egészségügyi AI-nál a következő szint a verifikáció. A telemedicina, diagnózistámogatás és kórházi működésoptimalizálás csak akkor skálázódik biztonságosan, ha a rendszer képes saját állításait legalább részben gépileg ellenőrizni és megmagyarázni.

Ha most vezetsz be LLM-et egészségügyi folyamatba, én nem a „melyik modell a jobb?” kérdéssel kezdeném, hanem ezzel: hogyan fogod naponta mérni és bizonyítani, hogy a válaszok tényszerűek?

Ha az AI beleszól az ellátásba, akkor nem elég okosnak lennie. Bizonyíthatóan megbízhatónak kell lennie.

🇭🇺 Tényellenőrzött orvosi AI-válaszok: így épül a bizalom - Hungary | 3L3C