Női egészség benchmark: így buknak el az orvosi LLM-ek

Mesterséges intelligencia az egészségügyben••By 3L3C

Női egészségben az LLM-ek kb. 60%-ban hibáznak egy friss benchmark szerint. Mutatjuk, hol a legnagyobb kockázat, és mit tehetsz bevezetés előtt.

női egészségorvosi AILLMbetegbiztonságbenchmarktelemedicina
Share:

Featured image for Női egészség benchmark: így buknak el az orvosi LLM-ek

Női egészség benchmark: így buknak el az orvosi LLM-ek

A legkellemetlenebb meglepetés az egészségügyi AI-ban nem az, hogy a nyelvi modellek néha tévednek. Hanem az, hogy rendszerszinten ugyanott tévednek – és pont akkor, amikor nem fér bele. Egy friss, 2025.12-es kutatásban a szerzők létrehozták az első kifejezetten női egészségre szabott LLM-benchmarkot, és 13 csúcskategóriás modellt teszteltek rajta. Az eredmény kijózanító: nagyjából 60% a hibaarány a feladatsoron.

Ez a szám önmagában is erős, de a lényeg a részletekben van. Nem az a kérdés, hogy „jó-e az AI”, hanem az, hogy melyik orvosi szituációban mire lehet (és mire nem lehet) rábízni. A „Mesterséges intelligencia az egészségügyben” sorozatban sokat beszélünk diagnózistámogatásról, telemedicináról és kórházi működésoptimalizálásról. Itt viszont egy alapfeltételről van szó: mérni kell, mielőtt használjuk.

A Women’s Health Benchmark (WHB) pont ezt teszi. Ráadásul úgy, hogy nem csak „helyes válasz–helytelen válasz” logikával dolgozik, hanem azt is megmutatja, milyen típusú hibák csúsznak be: gyógyszeradagolás, sürgősség felismerése, elavult irányelvek, téves differenciáldiagnózis – és még több.

Mit mér a Women’s Health Benchmark (WHB), és miért számít?

A WHB lényege egyszerű: kifejezetten női egészséggel kapcsolatos klinikai helyzetekben vizsgálja, hogy a nagy nyelvi modellek mennyire adnak megbízható, biztonságos válaszokat. A kutatók 96 validált „model stumpot” (gondolj rá úgy, mint rövid, ellenőrzött esetre/lekérdezésre) állítottak össze, és öt szakterületet fedtek le.

A lefedett szakterĂĽletek:

  • szĂĽlĂ©szet-nĹ‘gyĂłgyászat
  • sĂĽrgĹ‘ssĂ©gi orvostan
  • háziorvosi/primer ellátás
  • onkolĂłgia
  • neurolĂłgia

A kérdések ráadásul nem egyetlen „felhasználót” modelleznek. Háromféle lekérdezéstípust vizsgálnak:

  1. páciens kérdés (laikus megfogalmazás, félelem, tünetleírás)
  2. klinikusi kérdés (szakmai rövidítések, célzott információigény)
  3. bizonyíték/irányelv/politika kérdés (ajánlások, guideline-ok, ellátási döntések kerete)

Ez azért fontos, mert a valóságban is így találkozunk LLM-ekkel: a beteg chatel, a klinikus gyorsan rákeres, a vezető pedig protokollt próbál egységesíteni. Ugyanaz a modell mindhárom szerepben mást tud – és mást ront el.

A 8 hibakategória: nem minden tévedés egyforma

A WHB nem csak pontoz, hanem „hibatérképet” ad. Nyolc hibafajtát különít el:

  • adagolási/gyĂłgyszerelĂ©si hiba
  • kritikus informáciĂł kihagyása
  • elavult irányelv vagy kezelĂ©sjavaslat
  • helytelen kezelĂ©si tanács
  • tĂ©ves tĂ©nyállĂ­tás
  • hiányzĂł vagy hibás differenciáldiagnĂłzis
  • sĂĽrgĹ‘ssĂ©g elmulasztása (missed urgency)
  • nem odaillĹ‘ vagy nem megfelelĹ‘ ajánlás

A gyakorlatban ez a különbség: lehet, hogy egy modell „csak” rosszul magyaráz, de az is lehet, hogy nem veszi észre a sürgősségi vörös zászlót. Az utóbbi kategória a kutatás szerint szinte minden modellnek fáj.

A legijesztőbb eredmény: a „sürgősség elmulasztása” mint vakfolt

A WHB egyik legfontosabb üzenete: a modellek univerzálisan gyengék a sürgős állapotok felismerésében. Ez nem apróság. A triázs-logika – mikor kell azonnal orvos, mikor lehet várni, mikor kell mentőt hívni – a biztonság egyik alappillére.

Képzelj el egy tipikus telemedicinás helyzetet: ünnepek környéke van (2025.12 vége), sok rendelő zárva, az ügyelet túlterhelt. A páciens ráír egy chatbotra: „erős alhasi fájdalom, szédülés, pecsételő vérzés”. Egy emberi klinikus fejében azonnal felvillan néhány kritikus lehetőség. Egy LLM viszont könnyen belecsúszik abba, hogy általános tanácsokat ad („pihenjen, folyadék, figyelje”), és nem emeli ki elég erősen a sürgősséget.

A kutatás nyelvén: missed urgency. A hétköznapi nyelven: „nem szólt időben, hogy ez baj”.

Miért pont ebben hibáznak?

Három okot látok, ami a magyar egészségügyi AI-projekteknél is újra és újra előjön:

  1. A modellek a „megnyugtató” stílust jutalmazottnak érzik. A túl óvatos, triázs-szerű válasz sok felhasználónak „pánikkeltésnek” tűnik, így a modellek tanítása során gyakran a simább, barátságosabb hang kap előnyt.
  2. A sürgősség nem tisztán ténykérdés, hanem kockázatkezelés. Ehhez nem elég tudni, mi az extrauterin terhesség; tudni kell, mikor kell azonnal lépni.
  3. Hiányzik a kontextus: életkor, terhességi státusz, gyógyszerek, kórelőzmény. Ha a modell nem kérdez vissza okosan, az információhiányból rossz döntési javaslat lesz.

A WHB erőssége, hogy ezt a problémát mérhetővé teszi. És ami mérhető, az fejleszthető.

Miért külön téma a női egészség az AI-n belül?

A női egészség nem „egy szűk szakterület”. Sokkal inkább olyan klinikai terület, ahol a tünetek gyakran atipikusak, az ellátási útvonalak töredezettek, és az evidenciák gyorsan változnak.

Három praktikus ok, ami miatt külön benchmark kellett:

1) Adat- és kutatási torzítások öröksége

Számos területen a történeti klinikai kutatások kevésbé reprezentálták a nőket, vagy nem bontották külön a kimeneteleket. Ha a modellek a „klasszikus” leírásokat tanulják, könnyen félrecsúsznak a kockázatjelzések.

2) Irányelvek gyors változása

A WHB külön kiemeli az elavult guideline problémáját. Egy LLM könnyen mondhat olyat, ami 3–5 éve még standard volt, ma viszont már nem az. Ez női egészségben különösen fáj, mert a szűrési, onkológiai és terhességgel kapcsolatos protokollok ütemesen frissülnek.

3) A „páciensnyelv” és a „klinikusnyelv” közti szakadék

A páciens ritkán úgy írja le a problémát, hogy „differenciáldiagnózist kérek”. A modellnek mégis fel kell ismernie, mi hiányzik a képből, és vissza kell kérdeznie. A WHB azért jó, mert külön méri a páciens és klinikus típusú kérdéseket.

Mit jelent ez a gyakorlatban a magyar egészségügyi szereplőknek?

A WHB üzenete nem az, hogy „tiltsuk be a chatbotokat”. Az üzenet az, hogy LLM-et egészségügyben csak mérési és kockázatkezelési kerettel együtt szabad bevezetni. Ha leadet szeretnél (és közben felelős maradni), ez kifejezetten jó hír: a piac most különbözteti meg a „van chatbotunk” és a „biztonságosan működik” szintet.

Egy használható bevezetési minimum (ha AI-t adsz betegek kezébe)

Az alábbi lista nem akadémiai, hanem terepszagú. Ilyet kérnék be én is egy beszállítótól vagy belső csapattól:

  1. Triázs-szabályrendszer külön rétegben
    • Ne csak a modell „érezze”, hanem legyen explicit logika vörös zászlĂłkra.
  2. Visszakérdezési protokoll
    • KötelezĹ‘ minimális kĂ©rdĂ©sek: Ă©letkor, terhessĂ©g lehetĹ‘sĂ©ge, vĂ©rzĂ©s jellege, fájdalom skála, gyĂłgyszerek.
  3. „Sürgős” válaszok auditja
    • A WHB tanulsága alapján kĂĽlön tesztcsomag kell a sĂĽrgĹ‘ssĂ©gi esetekre.
  4. Guideline-frissítés és tudásforrás-kezelés
    • Ha nincs kontroll a frissessĂ©gen, az „elavult ajánlás” nem hiba lesz, hanem állandĂł állapot.
  5. Kimeneti korlátozások
    • Bizonyos tĂ©mákban (adagolás, gyĂłgyszerváltás, terhessĂ©gi komplikáciĂłk) a modell ne adjon konkrĂ©t utasĂ­tást, inkább irányĂ­tson ellátásba.

Ez a keret jól illeszkedik a sorozatunk fő vonalához: diagnózistámogatás és telemedicina csak akkor érték, ha a betegbiztonság nem utólagos gondolat.

Hogyan segĂ­t egy benchmark abban, hogy jobb AI-modellek szĂĽlessenek?

A benchmark nem „vizsga” a modelleknek. A benchmark termékfejlesztési eszköz. A WHB háromféleképpen ad konkrét előnyt AI-fejlesztőknek és egészségügyi szervezeteknek:

1) Célozható hibajavítás: nem általános „javítsunk a pontszámon”

Ha tudod, hogy a modell például az onkológiai guideline kérdésekben elavult választ ad, míg a primer ellátásban inkább differenciáldiagnózist hagy ki, akkor specializált tanítással (adat, prompt, policy) sokkal gyorsabban lehet javulást elérni.

2) Összehasonlíthatóság beszerzésnél

A kórházak és egészségügyi startupok tipikus dilemmája: „melyik modellt válasszam?”. Egy női egészségre szabott benchmarkkal végre nem marketinganyagokat hasonlítasz, hanem konkrét kockázatmintázatot.

3) Felhasználói élmény: kevesebb hamis biztonságérzet

A legrosszabb chatbot nem az, amelyik bevallja, hogy nem biztos. Hanem amelyik magabiztosan téved. A WHB fókusza (pl. inappropriate recommendations és missed urgency) segít abban, hogy a rendszer stílusa ne nyomja el a klinikai óvatosságot.

Röviden: a jó egészségügyi AI nem „okosabb”, hanem kiszámíthatóbb és biztonságosabb.

Gyakori kérdések, amiket érdemes előre tisztázni

„Akkor az LLM-ek alkalmatlanok női egészségben?”

Nem. De önálló tanácsadóként (kontroll nélkül) ma még túl nagy a kockázat. Viszont triázs-támogatásra, betegoktatásra, adminisztratív teher csökkentésére – szabályokkal és teszteléssel – működhetnek.

„Mi számít elfogadható hibaaránynak?”

Egészségügyben a kérdés inkább az: melyik hibának mi a következménye. Egy stiláris pontatlanság nem ugyanaz, mint a sürgős ellátás elmulasztása. A WHB pont azért hasznos, mert nem egyetlen számot ad, hanem hibakategóriákat.

„Mit tehet egy intézmény már most?”

Kezdje ott, hogy a saját használati eseteire készít belső tesztkészletet: a leggyakoribb nőgyógyászati panaszok, ügyeleti csúcshelyzetek, és a telemedicinában tipikus félreértések mentén. A WHB jó minta arra, hogyan kell ezt rendszerezni.

Zárás: a női egészség nem mellékszál, hanem teszt a komolyságra

A Women’s Health Benchmark üzenete nekem egy mondatban ez: ha nem mérsz, csak remélsz. És az egészségügyben a remény nem kontrollmechanizmus.

A „Mesterséges intelligencia az egészségügyben” sorozat következő éve (2026) várhatóan arról szól majd, hogyan épülnek be az LLM-ek a betegutakba, az ügyeleti döntésekbe és a klinikai dokumentációba. Én azt szeretném, ha ez a beépülés nem gyors, hanem felelős lenne. A WHB típusú benchmarkok ebben kapaszkodót adnak: megmutatják, hol fáj, és hol kell először javítani.

Ha te egészségügyi szolgáltatóként, fejlesztőként vagy döntéshozóként AI-ban gondolkodsz, egy kérdést érdemes magaddal vinni: melyik hibát nem engedheted meg a saját rendszeredben – és hogyan fogod ezt mérni még élesítés előtt?