AI, ami tudományosan gondolkodik: haszon az egészségügyben

Mesterséges intelligencia az egészségügyben••By 3L3C

Az AI tudományos munkafolyamatokban még sokat hibázik. Megmutatjuk, mit jelent ez diagnosztikában, telemedicinában és biomedikai kutatásban.

SGI-BenchLLM értékelésklinikai AIdiagnózistámogatástelemedicinabiomedikai kutatás
Share:

Featured image for AI, ami tudományosan gondolkodik: haszon az egészségügyben

AI, ami tudományosan gondolkodik: haszon az egészségügyben

Egy friss kutatás szerint a mai nagy nyelvi modellek (LLM-ek) a „mély kutatás” jellegű feladatokban csak 10–20% körüli pontos egyezést érnek el, még akkor is, ha a lépéseik első ránézésre „tudományosan” hangzanak. Ez nem apró technikai részlet: az egészségügyben ugyanez a jelenség úgy csapódik le, hogy az AI szépen levezeti a gondolatmenetet, aztán a végén félreviszi a diagnózistámogatást, a protokollt, vagy épp a szakirodalmi összefoglalót.

A 2025.12.22-én publikált arXiv-tanulmány (SGI-Bench) azért érdekes a „Mesterséges intelligencia az egészségügyben” sorozatunkban, mert nem azt kérdezi, hogy „okos-e” az AI, hanem azt: tud-e úgy dolgozni, ahogy egy kutató vagy klinikus dolgozik? Vagyis tud-e deliberálni (átgondolni), koncepciót alkotni, cselekedni (kísérletezni/szimulálni), majd észlelni és értékelni az eredményt.

A lényeg: ha az AI-t valódi partnernek szánjuk diagnosztikában, telemedicinában, gyógyszerkutatásban vagy biomedikai adat-elemzésben, akkor nem elég a jó „válasz”. Jó munkafolyamat kell.

Mi az a „tudományos általános intelligencia”, és miért számít az egészségügyben?

A tanulmány által használt keret – a Practical Inquiry Model (PIM) – négy egymásra épülő lépést ír le: Deliberation (mérlegelés), Conception (koncepcióalkotás), Action (cselekvés), Perception (észlelés/értékelés). Ez a négyes meglepően jól ráültethető a mindennapi egészségügyi folyamatokra.

Egy klinikai példa (nem sci-fi, hétköznapi):

  • Deliberation: tĂĽnetek + kĂłrtörtĂ©net + labor + kĂ©palkotás ellentmondásainak feloldása
  • Conception: differenciáldiagnĂłzis Ă©s vizsgálati terv összeállĂ­tása
  • Action: vizsgálatok rendelĂ©se, protokoll futtatása, triázs, konzĂ­lium
  • Perception: eredmĂ©nyek Ă©rtelmezĂ©se, terápiamĂłdosĂ­tás, utánkövetĂ©s

Ha egy AI-rendszer ebből csak a „koncepció” részt tudja (szép szövegben felsorolja a lehetséges kórképeket), de az „action” és a „perception” szakaszban elvérzik (rossz protokoll-lépések, hibás következtetés az eredményekből), akkor a klinikai értéke korlátozott, sőt kockázatos.

A kutatás épp ezt teszteli: nem egy-egy izolált kérdést, hanem tudós-munkafolyamatokat.

SGI-Bench: miért más ez a mérés, mint a szokásos LLM-tesztek?

Az SGI-Bench több mint 1 000 szakértők által összeállított, több tudományterületet átfogó mintán méri az LLM-ek képességeit. A minták inspirációja a tudomány nagy, nyitott kérdésköre (klasszikus „big questions” típusú problémák), ami azért releváns, mert az egészségügyben a valódi esetek is ilyenek: hiányos, zajos, ellentmondásos információból kell dönteni.

A benchmark négy „tudós-kompatibilis” feladattípust használ:

  1. Mély kutatás (deep research): források, érvelés, összefűzés
  2. Ötletgenerálás (idea generation): hipotézisek, kutatási irányok
  3. „Száraz” kísérletek (dry experiments): kód, szimuláció, számítás
  4. „Nedves” kísérletek és protokollok (wet experiments): laborlépések, sorrend, kivitelezhetőség

Egészségügyi fordításban: 1) szakirodalmi összegzés klinikai kérdésre, 2) új biomarker-ötlet, 3) modellfuttatás EKG/CT/labor adatokon, 4) laborprotokoll vagy klinikai vizsgálati terv pontos, reprodukálható leírása.

Mit találtak: hol jók az LLM-ek, és hol fáj igazán?

1) Mély kutatás: „lépésben stimmel, végén nem”

A tanulmány szerint a mély kutatási feladatokban a modellek alacsony, 10–20% körüli exact match teljesítményt hoznak. Az egyik legfontosabb üzenet: a modellek gyakran jól hangzó, lépésről lépésre rendezett választ adnak, de a végső állítás(oka)t nem lehet stabilan igazolni.

Egészségügyi kockázat: egy AI lehet, hogy szépen összefoglalja a „legvalószínűbb” kezelési irányt, de ha a hivatkozott evidenciát rosszul kapcsolja a beteg helyzetéhez (életkor, komorbiditás, gyógyszer-interakció), akkor a rendszer meggyőzően téved.

A gyakorlati tanulságom: klinikai környezetben a „szép narratíva” nem biztonsági garancia. A garancia a visszakereshetőség, forráskezelés és ellenőrző lépések.

2) Ötletgenerálás: újszerű, de kivitelezhetetlen

A modellek sokszor adnak kreatív hipotéziseket, viszont a kutatás szerint az ötletek gyakran nem elég megvalósíthatók, és hiányzik belőlük a részletezettség (mérhető végpontok, erőforrásigény, kontrollok).

Egészségügyi példa: „jó lenne egy multimodális modell a szepszis korai jelzésére”. Oké, de:

  • milyen idĹ‘ablakban jelezzen?
  • mi a ground truth (ICD-kĂłd, klinikai kritĂ©rium, orvosi validáciĂł)?
  • hogyan kezeljĂĽk a hiányzĂł adatot?
  • mi a hamis riasztás költsĂ©ge az ĂĽgyeleten?

Ha ezek nincsenek kimondva, az ötlet nem projekt, csak mondat.

3) „Dry” kísérletek: a kód fut, az eredmény mégis rossz

A paper egyik legéletszerűbb megfigyelése: magas a kód futtathatósága, de alacsonyabb az eredmények pontossága. Magyarán: az AI le tudja írni a futó pipeline-t, de a kimenet értelmezésében vagy a célfüggvény/validáció részleteiben elcsúszik.

Ez egészségügyi adat-elemzésben tipikus csapda:

  • a modell „működik”, mĂ©gis adat-szivárgás van (leakage)
  • rossz a betegszintű split (ugyanaz a beteg mindkĂ©t oldalon)
  • az AUC jĂłl nĂ©z ki, de a klinikai haszon nulla (rossz kĂĽszöb, rossz kalibráciĂł)

A jó hír: ezt workflow-val lehet javítani. A rossz hír: ezt workflow nélkül nem lehet.

4) „Wet” protokollok: a sorrend és részletesség a gyenge pont

A labor- és protokollalapú feladatokban a modellek alacsony szekvenciahűséget mutatnak: rossz lépéssorrend, kimaradó kritikus részletek, nem reprodukálható leírás.

Egészségügyi analógia: klinikai protokolloknál és minőségirányításnál ez a legveszélyesebb. Egy telemedicinás triázs protokollnál például nem fér bele, hogy a rendszer összekeverje:

  • mikor kell azonnali sĂĽrgĹ‘ssĂ©gi ellátás
  • mikor kell 24–48 Ăłrán belĂĽli kontroll
  • mikor elĂ©g otthoni megfigyelĂ©s

Mi az a TTRL, és miért érdekes a gyógyszerkutatásban és diagnosztikában?

A tanulmány bevezet egy következtetésidőben alkalmazott megközelítést, a Test-Time Reinforcement Learning (TTRL)-t. A lényege: az AI a válaszgenerálás közben „jutalmazható” olyan célokért, mint a retrieval-augmented (visszakereséses) újszerűség – még akkor is, ha nincs kéznél „helyes megoldás” mint referenciaválasz.

Egészségügyi haszon ott jön ki, ahol:

  • nincs egyetlen tankönyvi válasz (ritka betegsĂ©gek, több kĂłrkĂ©p egyĂĽtt)
  • gyors hipotĂ©zis-iteráciĂł kell (gyĂłgyszer-repozicionálás, biomarker-jelöltek)
  • az ĂşjszerűsĂ©g Ă©rtĂ©k, de csak korlátok között

Az én álláspontom: a TTRL-szerű technikák akkor válnak igazán hasznossá az egészségügyben, ha a „jutalom” nem csak újszerűség, hanem kivitelezhetőség + betegbiztonsági korlát + ellenőrizhetőség is.

Hogyan építsünk „tudós-munkafolyamatot” klinikai AI köré? (Gyakorlati minta)

Az SGI-Bench üzenete nem az, hogy „az AI gyenge”, hanem az, hogy rosszul mérjük és rosszul illesztjük munkába. Ha leadet szeretnél (kórház, klinika, medtech), akkor a legjobb beszélgetésindító nem a modell neve, hanem a workflow.

Egy bevált, 6 lépéses egészségügyi AI-workflow

  1. Kérdés pontosítása (intake): mit döntünk el, milyen időn belül, mi a tévedés költsége?
  2. Adatleltár: milyen források (EESZT/EHR, PACS, lab, szöveges anamnézis), milyen hiányok?
  3. Visszakeresés és evidenciacsomag: irányelvek, helyi protokoll, intézményi útvonalak
  4. Modellezés/szimuláció (dry): betegszintű validáció, kalibráció, bias-ellenőrzés
  5. Protokollba ágyazás (wet): ki, mikor, mit lát; hogyan eskalál; audit nyomvonal
  6. Perception = utókövetés: drift-monitoring, riasztási arány, klinikai kimenetek

„Az egészségügyi AI nem attól lesz biztonságos, hogy okos. Attól lesz biztonságos, hogy ellenőrizhető.”

„People also ask” jellegű gyors válaszok

Mire jó ma egy LLM diagnózistámogatásban? Jó triázs előkészítésre, dokumentáció-összefoglalóra, differenciáldiagnózis-listára orvosi kontroll mellett.

Mire nem jó önmagában? Protokoll-szintű döntésekre és önálló terápiás javaslatra ott, ahol a hibának magas a klinikai kockázata.

Hogyan csökkenthető a „meggyőző tévedés”? Visszakereséses (RAG) réteggel, strukturált ellenőrző listákkal, kötelező bizonyítéklépcsőkkel és emberi jóváhagyással.

Mit jelent ez 2026 elején a magyar egészségügynek?

December vége mindig tervezős időszak: jövő évi pilotok, költségtervek, beszerzések. Ha 2026-ban AI-projektet indítasz képalkotásban, betegút-optimalizálásban vagy telemedicinában, akkor az SGI-szemlélet egy dolgot tesz tisztábbá: nem „chatbotot” kell bevezetni, hanem ellenőrzött munkafolyamatot.

A „Mesterséges intelligencia az egészségügyben” sorozatban én ezt a mércét szeretem: akkor beszélünk érett megoldásról, ha az AI képes a klinikus gondolkodási ritmusához alkalmazkodni – és közben nyomot hagy, auditálható, mérhető.

Ha most azon gondolkodsz, hogy az AI nálatok diagnosztikát támogasson, vagy biomedikai adatelemzésben gyorsítson, érdemes az első workshopon nem modellekről beszélni, hanem erről a négy lépésről: deliberation–conception–action–perception. Meg fog lepni, mennyi félreértést spórol.

A következő kérdés pedig már nem az, hogy „melyik AI a legerősebb”, hanem az, hogy melyik AI illeszthető úgy a folyamatba, hogy a betegbiztonság és a teljesítménymérés alapból be legyen drótozva.