SGI-Bench: új mérce arra, mennyire tud az AI „kutatóként” dolgozni. Mit jelent ez az egészségügyben és a precíziós agrár AI-ban?

AI, ami „kutatóként” dolgozik: mit hoz az SGI-Bench?
2025 végén egy friss kutatás elég kellemetlen tükröt tart a nagy nyelvi modellek (LLM-ek) elé: hiába tudnak meggyőzően „okoskodni”, a valódi, tudományos munkafolyamatokban (irodalomfeltárás, hipotézisalkotás, kísérlettervezés, eredményértelmezés) sokszor megbicsaklanak. A szerzők a „tudományos általános intelligencia” (Scientific General Intelligence, SGI) fogalmát próbálják kézzelfoghatóvá tenni, és ehhez egy új mércét is adnak: SGI-Bench, több mint 1000, szakértők által kurált feladattal.
Ez a téma nem csak az akadémiai vitákról szól. Ha AI-t használunk egészségügyben (diagnosztikai támogatás, kutatás, klinikai döntéstámogatás) vagy a sorozatunk fő területén, a precíziós mezőgazdaságban és agrártechnológiában (növénybetegség-felismerés, input-optimalizálás, hozambecslés), akkor ugyanaz a kérdés jön elő: tud-e az AI következetesen, ellenőrizhetően végigmenni a szakértői munkafolyamaton, vagy csak jól hangzó szöveget gyárt?
A kutatás üzenete szerintem egyszerű: nem az a lényeg, hogy a modell mennyire „okosnak tűnik”, hanem hogy mennyire megbízható egy teljes workflow-ban. A gyakorlatban ez dönti el, hogy lesz-e belőle használható megoldás egy kórházban, egy laborban vagy akár egy gazdaságban.
Mit mér az SGI-Bench, és miért jobb, mint egy sima „tesztkérdés”?
Az SGI-Bench alapállítása, hogy a tudományos teljesítményt nem lehet korrektül mérni pár okos kérdéssel vagy feleletválasztós teszttel. A tudományos munka folyamat, amiben van tervezés, visszacsatolás, hibajavítás és bizonytalanságkezelés.
A keretet egy Practical Inquiry Model (PIM) nevű, négy lépésre bontott modell adja:
- Deliberation (mérlegelés): mit tudunk, mi hiányzik, mi a kockázat?
- Conception (koncepció): hipotézis, terv, várható eredmények.
- Action (cselekvés): konkrét kísérlet/elemzés/protokoll.
- Perception (észlelés): eredmények értelmezése, összevetés, következtetés.
A benchmark ezt tudósokhoz igazított feladatokkal operationalizálja (nem csak „szövegértés”, hanem valódi kutatói tevékenységek mintázata).
A négy fő feladattípus röviden
A cikk négy workflow-t emel ki:
- Deep research (mély irodalmi és tényfeltáró kutatás)
- Idea generation (ötlet- és hipotézisgenerálás)
- Dry experiments (szimuláció/elemzés/kód-alapú kísérletek)
- Wet experiments (laborprotokollok, „nedves” kísérletek tervezése)
És jön a lényeg: a modellek a lépések egy részét „jól eljátsszák”, de a végkimenet sokszor elvérzik.
Mit tanulhat ebből az egészségügy – és mit a mezőgazdaság?
Az SGI-Bench eredményei szerintem két területnek különösen relevánsak: orvosi kutatás/diagnosztika és agrár K+F/precíziós gazdálkodás. Mindkettőnél gyakori, hogy:
- sok forrásból jön adat (publikációk, szenzorok, képek, laboreredmények),
- nagy a tét (téves diagnózis vagy rossz beavatkozás),
- a workflow több szereplős (szakértők, asszisztensek, rendszerek),
- és kell auditálhatóság.
A kutatás fő üzenete: a modell teljesítménye nem egy pontszám, hanem egy lánc erőssége. Ha a lánc bármelyik pontján törik (például rossz protokoll-lépés, hibás eredményértelmezés), az egész folyamat veszélyessé válik.
A mezőgazdaságban ugyanez jelenik meg, csak más köntösben: egy modell lehet jó abban, hogy „felismer valamit” egy levélfotón, de ha rossz az ajánlott beavatkozás (permetezési protokoll, dózis, időzítés), akkor a kár gyorsan kézzelfogható.
A kutatás legfontosabb (és kicsit kijózanító) eredményei
A tanulmány több, számszerűen is könnyen idézhető megállapítást közöl. Ezeket érdemes úgy olvasni, mint figyelmeztető táblákat a termékfejlesztésben.
1) Mély kutatás: 10–20% „exact match”
A deep research feladatoknál a modellek lépésenként sokszor „egy irányba mennek” a jó megoldással (tehát a gondolatmenet részben stimmel), mégis alacsony, 10–20% közötti az exact match arány.
Ez a gyakorlatban azt jelenti, hogy egy AI-asszisztens:
- jól összefoglal,
- okosan hangzó hivatkozási logikát mutat,
- de a végén könnyen elcsúszik egy kritikus tényen, definíción vagy kivételen.
Egészségügyi példa: egy klinikai összefoglaló „majdnem jó”, de rossz indikációval vagy rossz kontraindikációval javasol egy lépést.
Agrár példa: egy kártevőkezelési javaslat helyesnek tűnik, de figyelmen kívül hagyja az adott kultúrára vagy fenológiai fázisra vonatkozó korlátozásokat.
2) Ötletgenerálás: újszerű, de nem kivitelezhető
Az idea generation területen a modellek gyakran hoznak újszerűnek tűnő ötleteket, de a szerzők szerint tipikus gond, hogy az ötletek:
- nem elég részletesek,
- hiányzik a megvalósítási út,
- és a megvalósíthatóság (feasibility) gyenge.
Ez különösen veszélyes ott, ahol az „ötlet” könnyen átcsúszik döntéssé.
3) Dry kísérletek: fut a kód, de rossz az eredmény
A tanulmány egyik legjobb, nagyon „termékes” meglátása: a modellek sokszor magas arányban generálnak futtatható kódot, de az eredmények pontossága már alacsony.
Magyarul: nem attól lesz helyes egy elemzés, hogy lefut.
Egészségügyben ez az EHR-adatokon (kórlap, labordata, gyógyszerelés) futó modelleknél kritikus: az adattisztítás, a kohorsz-képzés, a hiányzó adatok kezelése mind olyan pont, ahol a „szép kód” még nem jelent jó tudományt.
Mezőgazdaságban ugyanez a hozam-előrejelzésnél vagy talajnedvesség-modellezésnél: egy pipeline futhat, csak épp rossz target-szivárgással, rossz validációval vagy félreértelmezett szenzormértékegységekkel.
4) Wet kísérletek: alacsony protokoll-hűség
A „nedves” kísérleteknél (laborprotokollok) a cikk szerint a modellek alacsony szekvencia-hűséggel adják vissza a helyes lépéssorrendet. Ez a laborban nem esztétikai kérdés: egy hibás sorrend tönkreteheti a mintát, vagy hamis eredményt ad.
A mezőgazdasági párhuzam itt a terepi protokoll: mintavételi rend, tárolási hőmérséklet, időzítés, kezelés–kontroll logika. A lépések sorrendje számít.
5) Multimodális összehasonlító következtetés: makacs probléma
A szerzők szerint a modellek továbbra is gyengék a multimodális, összehasonlító érvelésben (például több ábra/kép/eredmény összevetése és következtetés levonása).
Ez különösen releváns:
- orvosi képalkotásban (több metszet, több időpont, több modalitás),
- agrárban (drónkép + meteorológia + talaj + történeti hozam).
Mi az a TTRL, és miért izgalmas a „tesztidős” tanulás?
A tanulmány bevezet egy módszert: Test-Time Reinforcement Learning (TTRL). A lényeg, hogy a modell inferencia közben (tehát használatkor) kap egy optimalizálási jelet, amely a retrieval-alapú (külső tudásból visszakeresett) újszerűséget jutalmazza.
A cikk állítása szerint ez képes növelni a hipotézisek újszerűségét akkor is, ha nincs referencia-válasz.
A gyakorlati üzenet számomra: a jövő AI-rendszerei nem csak „kérdés–válasz” gépek lesznek, hanem adaptív kutatótársak, amelyek a feladat közben finoman korrigálnak.
Egészségügyi alkalmazásban ez például azt jelentheti, hogy egy modell nem csak összefoglalja a szakirodalmat, hanem keresési–érvelési ciklusokban képes jobb, tesztelhető hipotéziseket adni.
Hogyan használd ezt a szemléletet AI-projektben (egészségügyben és agrárban is)
Ha most AI-megoldást fejlesztesz, vásárolsz vagy pilotolsz, az SGI-Bench szemlélete szerintem egy konkrét ellenőrzőlistát ad. Nem elmélet. Projektmentés.
1) Workflow-szintű célokat definiálj, ne modell-pontszámokat
Ahelyett, hogy „legyen 92% pontosság”, fogalmazz így:
- Irodalomfeltárás: 30 releváns forrásból 25-öt helyesen azonosít és helyesen idéz.
- Protokoll: 12 lépésből 12 helyes sorrendben, kritikus hibával: 0.
- Eredményértelmezés: a top-3 alternatív magyarázatból legalább 2-t megnevez, és jelzi a bizonytalanságot.
2) Válaszd szét a „szép szöveg” és a „helyes munka” ellenőrzését
Én azt látom, hogy a legtöbb csapat ott csúszik el, hogy a demóban a modell „meggyőző”. Az SGI-Bench eredményei alapján érdemes külön mérni:
- lépéshelyesség,
- végeredmény-helyesség,
- forráskezelési fegyelem,
- és a hibák súlyosságát (kritikus vs. kozmetikai).
3) Tedd kötelezővé a „Perception” fázist: ellenőrzés, összevetés, sanity check
A rendszernek legyen explicit feladata, hogy:
- ellenőrizze saját állításait,
- alternatív hipotéziseket adjon,
- és jelezze, hogy mit nem tud.
A valós környezetben (kórház, üvegház, szántóföld) ez a rész hozza a biztonságot.
Mi következik ebből a „Mesterséges intelligencia a mezőgazdaságban” sorozatban?
A mezőgazdasági AI sokszor látványos: drónképek, térképek, szenzorhálózatok. De a következő szint nem a látvány. A következő szint a tudósszerű munkafolyamat.
Ha az AI képes egy agronómus vagy növényorvos gondolkodási ritmusát követni (adatgyűjtés → hipotézis → terepi teszt → értelmezés), akkor:
- gyorsabban lesz megbízható a növénybetegség-felismerés,
- jobb lesz az input-optimalizálás (víz, műtrágya, növényvédelem),
- és csökken a „próbáljuk ki és majd meglátjuk” költsége.
Ugyanígy az egészségügyben: a diagnosztikai támogatás értéke akkor lesz igazán nagy, amikor a rendszer nem csak felismer, hanem következetesen végigviszi a szakmai workflow-t, és auditálhatóan dokumentálja a döntési útvonalat.
Egy mondatban: a tudományos intelligencia nem „okos válasz”, hanem fegyelmezett folyamat.
A következő hetekben (2026 elején) én erre fókuszálnék a projektekben: workflow-alapú tesztkészletek, szerepkörökhöz (orvos, laboros, agronómus) igazított értékelés, és olyan pilotok, ahol a modellnek nem csak beszélni kell, hanem dolgozni.
Te hol látod a nagyobb kockázatot: az ötletgenerálásnál, a protokolloknál, vagy az eredmények értelmezésénél?