Női egészségben az LLM-ek kb. 60%-ban hibáznak egy friss benchmark szerint. Mutatjuk, hol a legnagyobb kockázat, és mit tehetsz bevezetés előtt.

NĹ‘i egĂ©szsĂ©g benchmark: Ăgy buknak el az orvosi LLM-ek
A legkellemetlenebb meglepetĂ©s az egĂ©szsĂ©gĂĽgyi AI-ban nem az, hogy a nyelvi modellek nĂ©ha tĂ©vednek. Hanem az, hogy rendszerszinten ugyanott tĂ©vednek – Ă©s pont akkor, amikor nem fĂ©r bele. Egy friss, 2025.12-es kutatásban a szerzĹ‘k lĂ©trehozták az elsĹ‘ kifejezetten nĹ‘i egĂ©szsĂ©gre szabott LLM-benchmarkot, Ă©s 13 csĂşcskategĂłriás modellt teszteltek rajta. Az eredmĂ©ny kijĂłzanĂtĂł: nagyjábĂłl 60% a hibaarány a feladatsoron.
Ez a szám önmagában is erĹ‘s, de a lĂ©nyeg a rĂ©szletekben van. Nem az a kĂ©rdĂ©s, hogy „jĂł-e az AI”, hanem az, hogy melyik orvosi szituáciĂłban mire lehet (Ă©s mire nem lehet) rábĂzni. A „MestersĂ©ges intelligencia az egĂ©szsĂ©gĂĽgyben” sorozatban sokat beszĂ©lĂĽnk diagnĂłzistámogatásrĂłl, telemedicinárĂłl Ă©s kĂłrházi működĂ©soptimalizálásrĂłl. Itt viszont egy alapfeltĂ©telrĹ‘l van szĂł: mĂ©rni kell, mielĹ‘tt használjuk.
A Women’s Health Benchmark (WHB) pont ezt teszi. Ráadásul Ăşgy, hogy nem csak „helyes válasz–helytelen válasz” logikával dolgozik, hanem azt is megmutatja, milyen tĂpusĂş hibák csĂşsznak be: gyĂłgyszeradagolás, sĂĽrgĹ‘ssĂ©g felismerĂ©se, elavult irányelvek, tĂ©ves differenciáldiagnĂłzis – Ă©s mĂ©g több.
Mit mĂ©r a Women’s Health Benchmark (WHB), Ă©s miĂ©rt számĂt?
A WHB lĂ©nyege egyszerű: kifejezetten nĹ‘i egĂ©szsĂ©ggel kapcsolatos klinikai helyzetekben vizsgálja, hogy a nagy nyelvi modellek mennyire adnak megbĂzhatĂł, biztonságos válaszokat. A kutatĂłk 96 validált „model stumpot” (gondolj rá Ăşgy, mint rövid, ellenĹ‘rzött esetre/lekĂ©rdezĂ©sre) állĂtottak össze, Ă©s öt szakterĂĽletet fedtek le.
A lefedett szakterĂĽletek:
- szülészet-nőgyógyászat
- sürgősségi orvostan
- háziorvosi/primer ellátás
- onkolĂłgia
- neurolĂłgia
A kĂ©rdĂ©sek ráadásul nem egyetlen „felhasználĂłt” modelleznek. HáromfĂ©le lekĂ©rdezĂ©stĂpust vizsgálnak:
- páciens kĂ©rdĂ©s (laikus megfogalmazás, fĂ©lelem, tĂĽnetleĂrás)
- klinikusi kĂ©rdĂ©s (szakmai rövidĂtĂ©sek, cĂ©lzott informáciĂłigĂ©ny)
- bizonyĂtĂ©k/irányelv/politika kĂ©rdĂ©s (ajánlások, guideline-ok, ellátási döntĂ©sek kerete)
Ez azĂ©rt fontos, mert a valĂłságban is Ăgy találkozunk LLM-ekkel: a beteg chatel, a klinikus gyorsan rákeres, a vezetĹ‘ pedig protokollt prĂłbál egysĂ©gesĂteni. Ugyanaz a modell mindhárom szerepben mást tud – Ă©s mást ront el.
A 8 hibakategória: nem minden tévedés egyforma
A WHB nem csak pontoz, hanem „hibatĂ©rkĂ©pet” ad. Nyolc hibafajtát kĂĽlönĂt el:
- adagolási/gyógyszerelési hiba
- kritikus információ kihagyása
- elavult irányelv vagy kezelésjavaslat
- helytelen kezelési tanács
- tĂ©ves tĂ©nyállĂtás
- hiányzó vagy hibás differenciáldiagnózis
- sürgősség elmulasztása (missed urgency)
- nem odaillő vagy nem megfelelő ajánlás
A gyakorlatban ez a különbség: lehet, hogy egy modell „csak” rosszul magyaráz, de az is lehet, hogy nem veszi észre a sürgősségi vörös zászlót. Az utóbbi kategória a kutatás szerint szinte minden modellnek fáj.
A legijesztőbb eredmény: a „sürgősség elmulasztása” mint vakfolt
A WHB egyik legfontosabb ĂĽzenete: a modellek univerzálisan gyengĂ©k a sĂĽrgĹ‘s állapotok felismerĂ©sĂ©ben. Ez nem aprĂłság. A triázs-logika – mikor kell azonnal orvos, mikor lehet várni, mikor kell mentĹ‘t hĂvni – a biztonság egyik alappillĂ©re.
KĂ©pzelj el egy tipikus telemedicinás helyzetet: ĂĽnnepek környĂ©ke van (2025.12 vĂ©ge), sok rendelĹ‘ zárva, az ĂĽgyelet tĂşlterhelt. A páciens ráĂr egy chatbotra: „erĹ‘s alhasi fájdalom, szĂ©dĂĽlĂ©s, pecsĂ©telĹ‘ vĂ©rzĂ©s”. Egy emberi klinikus fejĂ©ben azonnal felvillan nĂ©hány kritikus lehetĹ‘sĂ©g. Egy LLM viszont könnyen belecsĂşszik abba, hogy általános tanácsokat ad („pihenjen, folyadĂ©k, figyelje”), Ă©s nem emeli ki elĂ©g erĹ‘sen a sĂĽrgĹ‘ssĂ©get.
A kutatás nyelvén: missed urgency. A hétköznapi nyelven: „nem szólt időben, hogy ez baj”.
Miért pont ebben hibáznak?
Három okot látok, ami a magyar egészségügyi AI-projekteknél is újra és újra előjön:
- A modellek a „megnyugtató” stĂlust jutalmazottnak Ă©rzik. A tĂşl Ăłvatos, triázs-szerű válasz sok felhasználĂłnak „pánikkeltĂ©snek” tűnik, Ăgy a modellek tanĂtása során gyakran a simább, barátságosabb hang kap elĹ‘nyt.
- A sürgősség nem tisztán ténykérdés, hanem kockázatkezelés. Ehhez nem elég tudni, mi az extrauterin terhesség; tudni kell, mikor kell azonnal lépni.
- Hiányzik a kontextus: életkor, terhességi státusz, gyógyszerek, kórelőzmény. Ha a modell nem kérdez vissza okosan, az információhiányból rossz döntési javaslat lesz.
A WHB erőssége, hogy ezt a problémát mérhetővé teszi. És ami mérhető, az fejleszthető.
Miért külön téma a női egészség az AI-n belül?
A női egészség nem „egy szűk szakterület”. Sokkal inkább olyan klinikai terület, ahol a tünetek gyakran atipikusak, az ellátási útvonalak töredezettek, és az evidenciák gyorsan változnak.
Három praktikus ok, ami miatt külön benchmark kellett:
1) Adat- Ă©s kutatási torzĂtások öröksĂ©ge
Számos terĂĽleten a törtĂ©neti klinikai kutatások kevĂ©sbĂ© reprezentálták a nĹ‘ket, vagy nem bontották kĂĽlön a kimeneteleket. Ha a modellek a „klasszikus” leĂrásokat tanulják, könnyen fĂ©lrecsĂşsznak a kockázatjelzĂ©sek.
2) Irányelvek gyors változása
A WHB külön kiemeli az elavult guideline problémáját. Egy LLM könnyen mondhat olyat, ami 3–5 éve még standard volt, ma viszont már nem az. Ez női egészségben különösen fáj, mert a szűrési, onkológiai és terhességgel kapcsolatos protokollok ütemesen frissülnek.
3) A „páciensnyelv” és a „klinikusnyelv” közti szakadék
A páciens ritkán Ăşgy Ărja le a problĂ©mát, hogy „differenciáldiagnĂłzist kĂ©rek”. A modellnek mĂ©gis fel kell ismernie, mi hiányzik a kĂ©pbĹ‘l, Ă©s vissza kell kĂ©rdeznie. A WHB azĂ©rt jĂł, mert kĂĽlön mĂ©ri a páciens Ă©s klinikus tĂpusĂş kĂ©rdĂ©seket.
Mit jelent ez a gyakorlatban a magyar egészségügyi szereplőknek?
A WHB ĂĽzenete nem az, hogy „tiltsuk be a chatbotokat”. Az ĂĽzenet az, hogy LLM-et egĂ©szsĂ©gĂĽgyben csak mĂ©rĂ©si Ă©s kockázatkezelĂ©si kerettel egyĂĽtt szabad bevezetni. Ha leadet szeretnĂ©l (Ă©s közben felelĹ‘s maradni), ez kifejezetten jĂł hĂr: a piac most kĂĽlönbözteti meg a „van chatbotunk” Ă©s a „biztonságosan működik” szintet.
Egy használható bevezetési minimum (ha AI-t adsz betegek kezébe)
Az alábbi lista nem akadĂ©miai, hanem terepszagĂş. Ilyet kĂ©rnĂ©k be Ă©n is egy beszállĂtĂłtĂłl vagy belsĹ‘ csapattĂłl:
- Triázs-szabályrendszer külön rétegben
- Ne csak a modell „érezze”, hanem legyen explicit logika vörös zászlókra.
- Visszakérdezési protokoll
- Kötelező minimális kérdések: életkor, terhesség lehetősége, vérzés jellege, fájdalom skála, gyógyszerek.
- „Sürgős” válaszok auditja
- A WHB tanulsága alapján külön tesztcsomag kell a sürgősségi esetekre.
- Guideline-frissĂtĂ©s Ă©s tudásforrás-kezelĂ©s
- Ha nincs kontroll a frissességen, az „elavult ajánlás” nem hiba lesz, hanem állandó állapot.
- Kimeneti korlátozások
- Bizonyos tĂ©mákban (adagolás, gyĂłgyszerváltás, terhessĂ©gi komplikáciĂłk) a modell ne adjon konkrĂ©t utasĂtást, inkább irányĂtson ellátásba.
Ez a keret jól illeszkedik a sorozatunk fő vonalához: diagnózistámogatás és telemedicina csak akkor érték, ha a betegbiztonság nem utólagos gondolat.
Hogyan segĂt egy benchmark abban, hogy jobb AI-modellek szĂĽlessenek?
A benchmark nem „vizsga” a modelleknek. A benchmark termékfejlesztési eszköz. A WHB háromféleképpen ad konkrét előnyt AI-fejlesztőknek és egészségügyi szervezeteknek:
1) CĂ©lozhatĂł hibajavĂtás: nem általános „javĂtsunk a pontszámon”
Ha tudod, hogy a modell pĂ©ldául az onkolĂłgiai guideline kĂ©rdĂ©sekben elavult választ ad, mĂg a primer ellátásban inkább differenciáldiagnĂłzist hagy ki, akkor specializált tanĂtással (adat, prompt, policy) sokkal gyorsabban lehet javulást elĂ©rni.
2) Ă–sszehasonlĂthatĂłság beszerzĂ©snĂ©l
A kĂłrházak Ă©s egĂ©szsĂ©gĂĽgyi startupok tipikus dilemmája: „melyik modellt válasszam?”. Egy nĹ‘i egĂ©szsĂ©gre szabott benchmarkkal vĂ©gre nem marketinganyagokat hasonlĂtasz, hanem konkrĂ©t kockázatmintázatot.
3) Felhasználói élmény: kevesebb hamis biztonságérzet
A legrosszabb chatbot nem az, amelyik bevallja, hogy nem biztos. Hanem amelyik magabiztosan tĂ©ved. A WHB fĂłkusza (pl. inappropriate recommendations Ă©s missed urgency) segĂt abban, hogy a rendszer stĂlusa ne nyomja el a klinikai Ăłvatosságot.
Röviden: a jĂł egĂ©szsĂ©gĂĽgyi AI nem „okosabb”, hanem kiszámĂthatĂłbb Ă©s biztonságosabb.
Gyakori kérdések, amiket érdemes előre tisztázni
„Akkor az LLM-ek alkalmatlanok női egészségben?”
Nem. De önállĂł tanácsadĂłkĂ©nt (kontroll nĂ©lkĂĽl) ma mĂ©g tĂşl nagy a kockázat. Viszont triázs-támogatásra, betegoktatásra, adminisztratĂv teher csökkentĂ©sĂ©re – szabályokkal Ă©s tesztelĂ©ssel – működhetnek.
„Mi számĂt elfogadhatĂł hibaaránynak?”
Egészségügyben a kérdés inkább az: melyik hibának mi a következménye. Egy stiláris pontatlanság nem ugyanaz, mint a sürgős ellátás elmulasztása. A WHB pont azért hasznos, mert nem egyetlen számot ad, hanem hibakategóriákat.
„Mit tehet egy intézmény már most?”
Kezdje ott, hogy a saját használati eseteire kĂ©szĂt belsĹ‘ tesztkĂ©szletet: a leggyakoribb nĹ‘gyĂłgyászati panaszok, ĂĽgyeleti csĂşcshelyzetek, Ă©s a telemedicinában tipikus fĂ©lreĂ©rtĂ©sek mentĂ©n. A WHB jĂł minta arra, hogyan kell ezt rendszerezni.
Zárás: a női egészség nem mellékszál, hanem teszt a komolyságra
A Women’s Health Benchmark üzenete nekem egy mondatban ez: ha nem mérsz, csak remélsz. És az egészségügyben a remény nem kontrollmechanizmus.
A „MestersĂ©ges intelligencia az egĂ©szsĂ©gĂĽgyben” sorozat következĹ‘ Ă©ve (2026) várhatĂłan arrĂłl szĂłl majd, hogyan Ă©pĂĽlnek be az LLM-ek a betegutakba, az ĂĽgyeleti döntĂ©sekbe Ă©s a klinikai dokumentáciĂłba. Én azt szeretnĂ©m, ha ez a beĂ©pĂĽlĂ©s nem gyors, hanem felelĹ‘s lenne. A WHB tĂpusĂş benchmarkok ebben kapaszkodĂłt adnak: megmutatják, hol fáj, Ă©s hol kell elĹ‘ször javĂtani.
Ha te egĂ©szsĂ©gĂĽgyi szolgáltatĂłkĂ©nt, fejlesztĹ‘kĂ©nt vagy döntĂ©shozĂłkĂ©nt AI-ban gondolkodsz, egy kĂ©rdĂ©st Ă©rdemes magaddal vinni: melyik hibát nem engedheted meg a saját rendszeredben – Ă©s hogyan fogod ezt mĂ©rni mĂ©g Ă©lesĂtĂ©s elĹ‘tt?