Orvosi LLM-eknél a faktualitás a kulcs. Tudásgráf-alapú ellenőrzéssel a válaszok állításai gépileg mérhetők és magyarázhatók.

Tényellenőrzött orvosi AI-válaszok: így épül a bizalom
Egy rossz orvosi tanács nem „csak” kellemetlen: rossz gyógyszerszedéshez, késlekedő diagnózishoz vagy felesleges vizsgálatokhoz vezethet. Ezért amikor nagy nyelvi modelleket (LLM-eket) engedünk közel a betegkommunikációhoz, triázshoz vagy klinikai döntéstámogatáshoz, a legfontosabb kérdés nem az, hogy mennyire választékosan fogalmaznak, hanem az, hogy igazat mondanak-e.
A friss, AAAI’26 konferenciára elfogadott kutatás (FAITH keretrendszer) pont erre ad egy használható, mérnöki választ: automatizált tényellenőrzést végez orvosi LLM-válaszokon úgy, hogy közben nem igényel előre megírt „helyes megoldást” (referenciaválaszt). Ehelyett az állításokat orvosi tudásgráfokhoz köti, és bizonyítéki útvonalak alapján pontoz. A lényeg: az AI-t nem „szépen beszélni” tanítjuk, hanem elszámoltathatóan állítani.
Ez a cikk a „Mesterséges intelligencia az egészségügyben” sorozat része. A sorozatban sokat beszélünk diagnosztikáról, telemedicináról és működésoptimalizálásról – most viszont arról a rétegről lesz szó, amit a legtöbb szervezet alulbecsül: a megbízhatóság méréséről és bizonyíthatóságáról.
Miért bukik el a legtöbb „orvosi chatbot” a valóságban?
A probléma egyszerű: a nyelvi modell meggyőző szöveget gyárt. A klinikai környezet viszont ellenőrizhető állításokat kér.
A klasszikus értékelési módszerek (például „hasonlít-e a válasz a mintamegoldásra?”) az egészségügyben gyakran falnak mennek:
- Sok kérdésre több elfogadható válasz létezik (különböző irányelvek, beteg-specifikus tényezők).
- A referenciaválasz gyorsan elavulhat (új ajánlások, gyógyszerfigyelmeztetések).
- A „szöveg-minőség” (folyékonyság) könnyen elfedi a tényhibákat.
A telemedicina és a digitális triázs 2025 végére már nem kísérlet sok helyen, hanem napi rutin. Itt egyetlen félrecsúszott állítás is komoly kockázat:
Az egészségügyi LLM-eknél a legveszélyesebb hiba nem a stílus, hanem a magabiztos tévedés.
Mit ad hozzá a FAITH: tényellenőrzés referenciaválasz nélkül
A FAITH keretrendszer központi állítása: az orvosi LLM-válaszok faktualitása automatizáltan mérhető, ha a választ atomikus állításokra bontjuk, majd ezeket tudásgráfban kereshető tényekhez kötjük.
1) Atomikus állítások: a „mondat” túl nagy egység
A klinikai tévedések gyakran apró csúszások:
- „A gyógyszer X csökkenti a vérnyomást” (lehet igaz)
- „…és terhességben biztonságos” (lehet hamis)
Egy összetett mondatban ezek összefolynak. Az atomikus bontás lényege, hogy minden ellenőrizhető darab külön pontot kapjon.
Gyakorlati példa (egyszerűsítve):
- Állítás A: „A metformin első vonalbeli szer 2-es típusú diabéteszben.”
- Állítás B: „Súlyos vesekárosodás esetén kerülendő.”
Ezek külön-külön ellenőrizhetők.
2) Tudásgráf: nem „keresés”, hanem kapcsolati bizonyíték
A tudásgráf (KG) olyan strukturált háló, ahol entitások (betegségek, gyógyszerek, mellékhatások) és kapcsolatok (indikáció, kontraindikáció, interakció) alkotnak egy ellenőrizhető rendszert.
A FAITH nem csak azt nézi, hogy szerepel-e egy kifejezés, hanem azt, hogy létezik-e bizonyítéki útvonal az állítás entitásai között.
- Ha a gráfban van útvonal, az állítás erősebb.
- Ha nincs útvonal, az állítás gyanús vagy nem lefedett.
3) Pontozás és magyarázhatóság: nem fekete doboz
A kutatás egyik erős pontja, hogy a pontszám mögé lehet nézni. A felhasználó (orvos, minőségbiztosítás, termékfelelős) nem csak azt kapja meg, hogy „jó/rossz”, hanem azt is, hogy:
- mely atomikus állítások problémásak,
- milyen bizonyíték (útvonal) támasztja alá vagy nem támasztja alá,
- hol vannak lefedetlenségi lyukak.
Ez a különbség aközött, hogy „a modell 82%-os”, és aközött, hogy konkrétan megmutatom, melyik állításnál csúszik el.
Mit mutattak a kísérletek: közelebb az orvosi megítéléshez
A tanulmány lényege nem az, hogy „a tudásgráf mindent megold”, hanem az, hogy jobban együtt mozog a klinikusok ítéletével, mint sok hagyományos automatikus mérőszám.
A szerzők több orvosi feladaton vizsgálták a megközelítést, és emberi (szubjektív) értékeléssel vetették össze. Az üzenet számomra három részből áll:
Jobb korreláció a klinikusi értékeléssel
A KG-alapú értékelés „érzékenyebb” a tényhibákra, miközben kevésbé bünteti a stílusbeli eltéréseket. Ez fontos, mert a valós életben a modell válasza ritkán lesz szó szerint olyan, mint egy referenciaminta.
Különbséget tud tenni LLM-ek között
Ha két modell hasonlóan folyékonyan fogalmaz, a felhasználó könnyen azt gondolja: „ugyanazt tudják”. A FAITH-típusú mérés segít képességszintet elkülöníteni faktualitás mentén.
Robusztus a szövegváltozatokra
Ugyanazt az állítást lehet többféleképp megfogalmazni. A KG-kötés miatt az értékelés kevésbé „szövegfüggő”. Ez telemedicinában kifejezetten hasznos, mert a betegkérdések és a válaszstílusok erősen variálnak.
Mire jó ez itthon: telemedicina, triázs, diagnózistámogatás
A FAITH gondolatvilága nem egy akadémiai luxus. Szerintem ez az a hiányzó réteg, amitől a „pilótából” termék lesz.
Telemedicina: biztonságosabb betegkommunikáció
A telemedicinás csatornákban gyakoriak a „mikor forduljak orvoshoz?” típusú kérdések. Itt a veszély tipikusan:
- alultriázs („nem sürgős”), amikor az,
- gyógyszeres állítások (kontraindikációk, interakciók),
- téves általánosítás (egy rizikócsoport kimarad).
KG-alapú tényellenőrzéssel a rendszer képes lehet riasztani, ha a válasz olyan állítást tartalmaz, amit a tudásgráf nem támaszt alá.
Diagnózistámogatás: állítás-szintű kontroll
LLM-eket sokan használnak differenciáldiagnózis ötletelésre. Ez önmagában nem baj, de a kontroll nélküli „ötletlista” könnyen túl nagy súlyt kap.
A jobb út: a modell ad javaslatot, majd a rendszer állításokra bontja, és ellenőrzi például:
- „Tünet X összefügg állapottal Y”
- „Vizsgálat Z első lépésként indokolt”
A cél nem az, hogy az AI „felülírja” az orvost, hanem hogy ne csússzanak be hamis ok-okozatok.
Működésoptimalizálás: minőségbiztosítás skálán
Ha egy kórházi informatikai csapat LLM-et vezet be (pl. zárójelentés-összefoglalás, betegút-tájékoztatás), akkor a minőségbiztosítás nem maradhat kézi mintavételezés.
KG-alapú automatikus ellenőrzéssel létrehozható:
- napi „faktualitás dashboard”,
- kockázatos állítástípusok listája (pl. dózis, kontraindikáció),
- modellverziók összehasonlítása élesben.
A valós korlátok: hol téved a tudásgráf-alapú megközelítés?
A jó hír: ez a megoldás erős. A rossz hír: nem varázspálca.
1) Lefedetlenség: ami nincs a gráfban, az „nem bizonyítható”
Ritka betegségek, friss irányelvfrissítések, helyi protokollok. Ha a KG nem tartalmazza, az állítás alulértékelődhet.
Mit érdemes csinálni?
- A legfontosabb klinikai területeken (belgyógyászat, sürgősségi, gyógyszerbiztonság) célzott gráfbővítés.
- Verziókezelés: mikor frissült a gráf, milyen forrásból.
2) Kontextus: „igaz”, de nem ennek a betegnek
Az orvoslás tele van „attól függ” helyzetekkel. Egy állítás lehet általánosan igaz, de egy konkrét betegre hamis (pl. életkor, vesefunkció, terhesség).
Itt a tudásgráf mellé kell:
- strukturált betegkontekts (labor, anamnézis),
- szabályok vagy klinikai korlátozások (pl. GFR küszöbök).
3) Nyelvi kötés és entitásfelismerés
Magyar nyelven a ragozás, szinonimák, rövidítések (pl. „HT”, „DM2”) extra kihívás. Ha az entitáslinkelés pontatlan, a pontozás is az lesz.
A gyakorlati tanulság: magyar telemedicinás terméknél érdemes külön foglalkozni a magyar orvosi terminológia normalizálásával.
Hogyan építs be tényellenőrzést egy egészségügyi AI-folyamatba (gyakorlatiasan)
Ha én ma (2025 végén) egészségügyi LLM-rendszert vezetnék be, ezt a „minimálisan ésszerű” kontrollt tenném köré.
1) Határozd meg, mit jelent nálatok a „tényhiba”
Nem minden hiba egyformán veszélyes. Célszerű súlyozni:
- kritikus: dózis, kontraindikáció, sürgősségi tünetek
- közepes: kiegészítő információk, életmódtanácsok
- alacsony: definíciók, általános háttér
2) Válasz → állítások → KG-ellenőrzés → döntés
Egy jól működő pipeline tipikusan:
- LLM generál
- állításbontás
- entitáslinkelés
- KG-bizonyíték keresés
- összpontszám + „piros zászlók”
- akció: megjelenítés / figyelmeztetés / emberi felülvizsgálat
3) Tedd láthatóvá a magyarázatot a felhasználónak
A magyarázhatóság nem extra, hanem biztonsági funkció. Ha a rendszer azt mondja: „ez az állítás nem támasztható alá”, akkor a klinikusnak látnia kell, melyik állításról van szó.
4) Indíts szűk területen, ahol nagy a nyereség
Három „jó belépési pont”:
- gyógyszer-interakciók és kontraindikációk ellenőrzése
- telemedicinás triázs figyelmeztetések
- betegoktató anyagok faktualitás-szűrése
Gyakori kérdések, amik felmerülnek döntéshozóknál
„Ez kiváltja a klinikust?”
Nem. A legjobb felhasználás az, amikor a rendszer kiszűri a problémás állításokat, és csökkenti a felülvizsgálati terhet. A felelősség és döntés klinikai marad.
„Mi van, ha a gráf téved vagy elavult?”
A tudásgráf is egy adattermék. Ugyanúgy kell kezelni, mint egy gyógyszertörzset: verzió, frissítés, audit. A nyereség, hogy legalább explicit tudásról beszélünk, nem rejtett modellparaméterekről.
„Megéri ezzel foglalkozni?”
A tapasztalatom az, hogy a legtöbb AI-projekt nem azért bukik el, mert a modell „nem elég okos”, hanem mert nincs bizalomtechnológia köré építve: mérés, kontroll, visszacsatolás. A KG-alapú tényellenőrzés pont ezt a rést tölti.
Merre tart ez 2026-ban: az AI már nem csak válaszol, hanem felel
A FAITH és a tudásgráf-alapú faktualitásmérés egy irányt erősít meg: az egészségügyi AI-nál a következő szint a verifikáció. A telemedicina, diagnózistámogatás és kórházi működésoptimalizálás csak akkor skálázódik biztonságosan, ha a rendszer képes saját állításait legalább részben gépileg ellenőrizni és megmagyarázni.
Ha most vezetsz be LLM-et egészségügyi folyamatba, én nem a „melyik modell a jobb?” kérdéssel kezdeném, hanem ezzel: hogyan fogod naponta mérni és bizonyítani, hogy a válaszok tényszerűek?
Ha az AI beleszól az ellátásba, akkor nem elég okosnak lennie. Bizonyíthatóan megbízhatónak kell lennie.