Az AI tudományos munkafolyamatokban még sokat hibázik. Megmutatjuk, mit jelent ez diagnosztikában, telemedicinában és biomedikai kutatásban.

AI, ami tudományosan gondolkodik: haszon az egészségügyben
Egy friss kutatás szerint a mai nagy nyelvi modellek (LLM-ek) a „mély kutatás” jellegű feladatokban csak 10–20% körüli pontos egyezést érnek el, még akkor is, ha a lépéseik első ránézésre „tudományosan” hangzanak. Ez nem apró technikai részlet: az egészségügyben ugyanez a jelenség úgy csapódik le, hogy az AI szépen levezeti a gondolatmenetet, aztán a végén félreviszi a diagnózistámogatást, a protokollt, vagy épp a szakirodalmi összefoglalót.
A 2025.12.22-Ă©n publikált arXiv-tanulmány (SGI-Bench) azĂ©rt Ă©rdekes a „MestersĂ©ges intelligencia az egĂ©szsĂ©gĂĽgyben” sorozatunkban, mert nem azt kĂ©rdezi, hogy „okos-e” az AI, hanem azt: tud-e Ăşgy dolgozni, ahogy egy kutatĂł vagy klinikus dolgozik? Vagyis tud-e deliberálni (átgondolni), koncepciĂłt alkotni, cselekedni (kĂsĂ©rletezni/szimulálni), majd Ă©szlelni Ă©s Ă©rtĂ©kelni az eredmĂ©nyt.
A lényeg: ha az AI-t valódi partnernek szánjuk diagnosztikában, telemedicinában, gyógyszerkutatásban vagy biomedikai adat-elemzésben, akkor nem elég a jó „válasz”. Jó munkafolyamat kell.
Mi az a „tudományos általános intelligencia”, Ă©s miĂ©rt számĂt az egĂ©szsĂ©gĂĽgyben?
A tanulmány által használt keret – a Practical Inquiry Model (PIM) – nĂ©gy egymásra Ă©pĂĽlĹ‘ lĂ©pĂ©st Ăr le: Deliberation (mĂ©rlegelĂ©s), Conception (koncepciĂłalkotás), Action (cselekvĂ©s), Perception (Ă©szlelĂ©s/Ă©rtĂ©kelĂ©s). Ez a nĂ©gyes meglepĹ‘en jĂłl ráültethetĹ‘ a mindennapi egĂ©szsĂ©gĂĽgyi folyamatokra.
Egy klinikai példa (nem sci-fi, hétköznapi):
- Deliberation: tünetek + kórtörténet + labor + képalkotás ellentmondásainak feloldása
- Conception: differenciáldiagnĂłzis Ă©s vizsgálati terv összeállĂtása
- Action: vizsgálatok rendelĂ©se, protokoll futtatása, triázs, konzĂlium
- Perception: eredmĂ©nyek Ă©rtelmezĂ©se, terápiamĂłdosĂtás, utánkövetĂ©s
Ha egy AI-rendszer ebből csak a „koncepció” részt tudja (szép szövegben felsorolja a lehetséges kórképeket), de az „action” és a „perception” szakaszban elvérzik (rossz protokoll-lépések, hibás következtetés az eredményekből), akkor a klinikai értéke korlátozott, sőt kockázatos.
A kutatás épp ezt teszteli: nem egy-egy izolált kérdést, hanem tudós-munkafolyamatokat.
SGI-Bench: miért más ez a mérés, mint a szokásos LLM-tesztek?
Az SGI-Bench több mint 1 000 szakĂ©rtĹ‘k által összeállĂtott, több tudományterĂĽletet átfogĂł mintán mĂ©ri az LLM-ek kĂ©pessĂ©geit. A minták inspiráciĂłja a tudomány nagy, nyitott kĂ©rdĂ©sköre (klasszikus „big questions” tĂpusĂş problĂ©mák), ami azĂ©rt releváns, mert az egĂ©szsĂ©gĂĽgyben a valĂłdi esetek is ilyenek: hiányos, zajos, ellentmondásos informáciĂłbĂłl kell dönteni.
A benchmark nĂ©gy „tudĂłs-kompatibilis” feladattĂpust használ:
- Mély kutatás (deep research): források, érvelés, összefűzés
- Ötletgenerálás (idea generation): hipotézisek, kutatási irányok
- „Száraz” kĂsĂ©rletek (dry experiments): kĂłd, szimuláciĂł, számĂtás
- „Nedves” kĂsĂ©rletek Ă©s protokollok (wet experiments): laborlĂ©pĂ©sek, sorrend, kivitelezhetĹ‘sĂ©g
EgĂ©szsĂ©gĂĽgyi fordĂtásban: 1) szakirodalmi összegzĂ©s klinikai kĂ©rdĂ©sre, 2) Ăşj biomarker-ötlet, 3) modellfuttatás EKG/CT/labor adatokon, 4) laborprotokoll vagy klinikai vizsgálati terv pontos, reprodukálhatĂł leĂrása.
Mit találtak: hol jók az LLM-ek, és hol fáj igazán?
1) Mély kutatás: „lépésben stimmel, végén nem”
A tanulmány szerint a mĂ©ly kutatási feladatokban a modellek alacsony, 10–20% körĂĽli exact match teljesĂtmĂ©nyt hoznak. Az egyik legfontosabb ĂĽzenet: a modellek gyakran jĂłl hangzĂł, lĂ©pĂ©srĹ‘l lĂ©pĂ©sre rendezett választ adnak, de a vĂ©gsĹ‘ állĂtás(oka)t nem lehet stabilan igazolni.
EgĂ©szsĂ©gĂĽgyi kockázat: egy AI lehet, hogy szĂ©pen összefoglalja a „legvalĂłszĂnűbb” kezelĂ©si irányt, de ha a hivatkozott evidenciát rosszul kapcsolja a beteg helyzetĂ©hez (Ă©letkor, komorbiditás, gyĂłgyszer-interakciĂł), akkor a rendszer meggyĹ‘zĹ‘en tĂ©ved.
A gyakorlati tanulságom: klinikai környezetben a „szĂ©p narratĂva” nem biztonsági garancia. A garancia a visszakereshetĹ‘sĂ©g, forráskezelĂ©s Ă©s ellenĹ‘rzĹ‘ lĂ©pĂ©sek.
2) Ötletgenerálás: újszerű, de kivitelezhetetlen
A modellek sokszor adnak kreatĂv hipotĂ©ziseket, viszont a kutatás szerint az ötletek gyakran nem elĂ©g megvalĂłsĂthatĂłk, Ă©s hiányzik belĹ‘lĂĽk a rĂ©szletezettsĂ©g (mĂ©rhetĹ‘ vĂ©gpontok, erĹ‘forrásigĂ©ny, kontrollok).
Egészségügyi példa: „jó lenne egy multimodális modell a szepszis korai jelzésére”. Oké, de:
- milyen időablakban jelezzen?
- mi a ground truth (ICD-kód, klinikai kritérium, orvosi validáció)?
- hogyan kezeljük a hiányzó adatot?
- mi a hamis riasztás költsége az ügyeleten?
Ha ezek nincsenek kimondva, az ötlet nem projekt, csak mondat.
3) „Dry” kĂsĂ©rletek: a kĂłd fut, az eredmĂ©ny mĂ©gis rossz
A paper egyik legĂ©letszerűbb megfigyelĂ©se: magas a kĂłd futtathatĂłsága, de alacsonyabb az eredmĂ©nyek pontossága. Magyarán: az AI le tudja Ărni a futĂł pipeline-t, de a kimenet Ă©rtelmezĂ©sĂ©ben vagy a cĂ©lfĂĽggvĂ©ny/validáciĂł rĂ©szleteiben elcsĂşszik.
Ez egészségügyi adat-elemzésben tipikus csapda:
- a modell „működik”, mégis adat-szivárgás van (leakage)
- rossz a betegszintű split (ugyanaz a beteg mindkét oldalon)
- az AUC jól néz ki, de a klinikai haszon nulla (rossz küszöb, rossz kalibráció)
A jĂł hĂr: ezt workflow-val lehet javĂtani. A rossz hĂr: ezt workflow nĂ©lkĂĽl nem lehet.
4) „Wet” protokollok: a sorrend és részletesség a gyenge pont
A labor- Ă©s protokollalapĂş feladatokban a modellek alacsony szekvenciahűsĂ©get mutatnak: rossz lĂ©pĂ©ssorrend, kimaradĂł kritikus rĂ©szletek, nem reprodukálhatĂł leĂrás.
EgĂ©szsĂ©gĂĽgyi analĂłgia: klinikai protokolloknál Ă©s minĹ‘sĂ©girányĂtásnál ez a legveszĂ©lyesebb. Egy telemedicinás triázs protokollnál pĂ©ldául nem fĂ©r bele, hogy a rendszer összekeverje:
- mikor kell azonnali sürgősségi ellátás
- mikor kell 24–48 órán belüli kontroll
- mikor elég otthoni megfigyelés
Mi az a TTRL, és miért érdekes a gyógyszerkutatásban és diagnosztikában?
A tanulmány bevezet egy következtetĂ©sidĹ‘ben alkalmazott megközelĂtĂ©st, a Test-Time Reinforcement Learning (TTRL)-t. A lĂ©nyege: az AI a válaszgenerálás közben „jutalmazható” olyan cĂ©lokĂ©rt, mint a retrieval-augmented (visszakeresĂ©ses) ĂşjszerűsĂ©g – mĂ©g akkor is, ha nincs kĂ©znĂ©l „helyes megoldás” mint referenciaválasz.
Egészségügyi haszon ott jön ki, ahol:
- nincs egyetlen tankönyvi válasz (ritka betegségek, több kórkép együtt)
- gyors hipotézis-iteráció kell (gyógyszer-repozicionálás, biomarker-jelöltek)
- az újszerűség érték, de csak korlátok között
Az én álláspontom: a TTRL-szerű technikák akkor válnak igazán hasznossá az egészségügyben, ha a „jutalom” nem csak újszerűség, hanem kivitelezhetőség + betegbiztonsági korlát + ellenőrizhetőség is.
Hogyan Ă©pĂtsĂĽnk „tudĂłs-munkafolyamatot” klinikai AI körĂ©? (Gyakorlati minta)
Az SGI-Bench ĂĽzenete nem az, hogy „az AI gyenge”, hanem az, hogy rosszul mĂ©rjĂĽk Ă©s rosszul illesztjĂĽk munkába. Ha leadet szeretnĂ©l (kĂłrház, klinika, medtech), akkor a legjobb beszĂ©lgetĂ©sindĂtĂł nem a modell neve, hanem a workflow.
Egy bevált, 6 lépéses egészségügyi AI-workflow
- KĂ©rdĂ©s pontosĂtása (intake): mit döntĂĽnk el, milyen idĹ‘n belĂĽl, mi a tĂ©vedĂ©s költsĂ©ge?
- Adatleltár: milyen források (EESZT/EHR, PACS, lab, szöveges anamnézis), milyen hiányok?
- Visszakeresés és evidenciacsomag: irányelvek, helyi protokoll, intézményi útvonalak
- Modellezés/szimuláció (dry): betegszintű validáció, kalibráció, bias-ellenőrzés
- Protokollba ágyazás (wet): ki, mikor, mit lát; hogyan eskalál; audit nyomvonal
- Perception = utókövetés: drift-monitoring, riasztási arány, klinikai kimenetek
„Az egészségügyi AI nem attól lesz biztonságos, hogy okos. Attól lesz biztonságos, hogy ellenőrizhető.”
„People also ask” jellegű gyors válaszok
Mire jĂł ma egy LLM diagnĂłzistámogatásban? JĂł triázs elĹ‘kĂ©szĂtĂ©sre, dokumentáciĂł-összefoglalĂłra, differenciáldiagnĂłzis-listára orvosi kontroll mellett.
Mire nem jó önmagában? Protokoll-szintű döntésekre és önálló terápiás javaslatra ott, ahol a hibának magas a klinikai kockázata.
Hogyan csökkenthetĹ‘ a „meggyĹ‘zĹ‘ tĂ©vedĂ©s”? VisszakeresĂ©ses (RAG) rĂ©teggel, strukturált ellenĹ‘rzĹ‘ listákkal, kötelezĹ‘ bizonyĂtĂ©klĂ©pcsĹ‘kkel Ă©s emberi jĂłváhagyással.
Mit jelent ez 2026 elején a magyar egészségügynek?
December vĂ©ge mindig tervezĹ‘s idĹ‘szak: jövĹ‘ Ă©vi pilotok, költsĂ©gtervek, beszerzĂ©sek. Ha 2026-ban AI-projektet indĂtasz kĂ©palkotásban, betegĂşt-optimalizálásban vagy telemedicinában, akkor az SGI-szemlĂ©let egy dolgot tesz tisztábbá: nem „chatbotot” kell bevezetni, hanem ellenĹ‘rzött munkafolyamatot.
A „Mesterséges intelligencia az egészségügyben” sorozatban én ezt a mércét szeretem: akkor beszélünk érett megoldásról, ha az AI képes a klinikus gondolkodási ritmusához alkalmazkodni – és közben nyomot hagy, auditálható, mérhető.
Ha most azon gondolkodsz, hogy az AI nálatok diagnosztikát támogasson, vagy biomedikai adatelemzĂ©sben gyorsĂtson, Ă©rdemes az elsĹ‘ workshopon nem modellekrĹ‘l beszĂ©lni, hanem errĹ‘l a nĂ©gy lĂ©pĂ©srĹ‘l: deliberation–conception–action–perception. Meg fog lepni, mennyi fĂ©lreĂ©rtĂ©st spĂłrol.
A következĹ‘ kĂ©rdĂ©s pedig már nem az, hogy „melyik AI a legerĹ‘sebb”, hanem az, hogy melyik AI illeszthetĹ‘ Ăşgy a folyamatba, hogy a betegbiztonság Ă©s a teljesĂtmĂ©nymĂ©rĂ©s alapbĂłl be legyen drĂłtozva.