SGI-Bench: Ăşj mĂ©rce arra, mennyire tud az AI „kutatĂłkĂ©nt” dolgozni. Mit jelent ez az egĂ©szsĂ©gĂĽgyben Ă©s a precĂziĂłs agrár AI-ban?

AI, ami „kutatóként” dolgozik: mit hoz az SGI-Bench?
2025 vĂ©gĂ©n egy friss kutatás elĂ©g kellemetlen tĂĽkröt tart a nagy nyelvi modellek (LLM-ek) elĂ©: hiába tudnak meggyĹ‘zĹ‘en „okoskodni”, a valĂłdi, tudományos munkafolyamatokban (irodalomfeltárás, hipotĂ©zisalkotás, kĂsĂ©rlettervezĂ©s, eredmĂ©nyĂ©rtelmezĂ©s) sokszor megbicsaklanak. A szerzĹ‘k a „tudományos általános intelligencia” (Scientific General Intelligence, SGI) fogalmát prĂłbálják kĂ©zzelfoghatĂłvá tenni, Ă©s ehhez egy Ăşj mĂ©rcĂ©t is adnak: SGI-Bench, több mint 1000, szakĂ©rtĹ‘k által kurált feladattal.
Ez a tĂ©ma nem csak az akadĂ©miai vitákrĂłl szĂłl. Ha AI-t használunk egĂ©szsĂ©gĂĽgyben (diagnosztikai támogatás, kutatás, klinikai döntĂ©stámogatás) vagy a sorozatunk fĹ‘ terĂĽletĂ©n, a precĂziĂłs mezĹ‘gazdaságban Ă©s agrártechnolĂłgiában (növĂ©nybetegsĂ©g-felismerĂ©s, input-optimalizálás, hozambecslĂ©s), akkor ugyanaz a kĂ©rdĂ©s jön elĹ‘: tud-e az AI következetesen, ellenĹ‘rizhetĹ‘en vĂ©gigmenni a szakĂ©rtĹ‘i munkafolyamaton, vagy csak jĂłl hangzĂł szöveget gyárt?
A kutatás ĂĽzenete szerintem egyszerű: nem az a lĂ©nyeg, hogy a modell mennyire „okosnak tűnik”, hanem hogy mennyire megbĂzhatĂł egy teljes workflow-ban. A gyakorlatban ez dönti el, hogy lesz-e belĹ‘le használhatĂł megoldás egy kĂłrházban, egy laborban vagy akár egy gazdaságban.
Mit mér az SGI-Bench, és miért jobb, mint egy sima „tesztkérdés”?
Az SGI-Bench alapállĂtása, hogy a tudományos teljesĂtmĂ©nyt nem lehet korrektĂĽl mĂ©rni pár okos kĂ©rdĂ©ssel vagy feleletválasztĂłs teszttel. A tudományos munka folyamat, amiben van tervezĂ©s, visszacsatolás, hibajavĂtás Ă©s bizonytalanságkezelĂ©s.
A keretet egy Practical Inquiry Model (PIM) nevű, négy lépésre bontott modell adja:
- Deliberation (mérlegelés): mit tudunk, mi hiányzik, mi a kockázat?
- Conception (koncepció): hipotézis, terv, várható eredmények.
- Action (cselekvĂ©s): konkrĂ©t kĂsĂ©rlet/elemzĂ©s/protokoll.
- Perception (észlelés): eredmények értelmezése, összevetés, következtetés.
A benchmark ezt tudĂłsokhoz igazĂtott feladatokkal operationalizálja (nem csak „szövegĂ©rtĂ©s”, hanem valĂłdi kutatĂłi tevĂ©kenysĂ©gek mintázata).
A nĂ©gy fĹ‘ feladattĂpus röviden
A cikk négy workflow-t emel ki:
- Deep research (mély irodalmi és tényfeltáró kutatás)
- Idea generation (ötlet- és hipotézisgenerálás)
- Dry experiments (szimuláciĂł/elemzĂ©s/kĂłd-alapĂş kĂsĂ©rletek)
- Wet experiments (laborprotokollok, „nedves” kĂsĂ©rletek tervezĂ©se)
És jön a lényeg: a modellek a lépések egy részét „jól eljátsszák”, de a végkimenet sokszor elvérzik.
Mit tanulhat ebből az egészségügy – és mit a mezőgazdaság?
Az SGI-Bench eredmĂ©nyei szerintem kĂ©t terĂĽletnek kĂĽlönösen relevánsak: orvosi kutatás/diagnosztika Ă©s agrár K+F/precĂziĂłs gazdálkodás. MindkettĹ‘nĂ©l gyakori, hogy:
- sok forrásból jön adat (publikációk, szenzorok, képek, laboreredmények),
- nagy a tét (téves diagnózis vagy rossz beavatkozás),
- a workflow több szereplős (szakértők, asszisztensek, rendszerek),
- és kell auditálhatóság.
A kutatás fĹ‘ ĂĽzenete: a modell teljesĂtmĂ©nye nem egy pontszám, hanem egy lánc erĹ‘ssĂ©ge. Ha a lánc bármelyik pontján törik (pĂ©ldául rossz protokoll-lĂ©pĂ©s, hibás eredmĂ©nyĂ©rtelmezĂ©s), az egĂ©sz folyamat veszĂ©lyessĂ© válik.
A mezĹ‘gazdaságban ugyanez jelenik meg, csak más köntösben: egy modell lehet jĂł abban, hogy „felismer valamit” egy levĂ©lfotĂłn, de ha rossz az ajánlott beavatkozás (permetezĂ©si protokoll, dĂłzis, idĹ‘zĂtĂ©s), akkor a kár gyorsan kĂ©zzelfoghatĂł.
A kutatás legfontosabb (Ă©s kicsit kijĂłzanĂtĂł) eredmĂ©nyei
A tanulmány több, számszerűen is könnyen idĂ©zhetĹ‘ megállapĂtást közöl. Ezeket Ă©rdemes Ăşgy olvasni, mint figyelmeztetĹ‘ táblákat a termĂ©kfejlesztĂ©sben.
1) Mély kutatás: 10–20% „exact match”
A deep research feladatoknál a modellek lépésenként sokszor „egy irányba mennek” a jó megoldással (tehát a gondolatmenet részben stimmel), mégis alacsony, 10–20% közötti az exact match arány.
Ez a gyakorlatban azt jelenti, hogy egy AI-asszisztens:
- jól összefoglal,
- okosan hangzó hivatkozási logikát mutat,
- de a vĂ©gĂ©n könnyen elcsĂşszik egy kritikus tĂ©nyen, definĂciĂłn vagy kivĂ©telen.
Egészségügyi példa: egy klinikai összefoglaló „majdnem jó”, de rossz indikációval vagy rossz kontraindikációval javasol egy lépést.
Agrár pĂ©lda: egy kártevĹ‘kezelĂ©si javaslat helyesnek tűnik, de figyelmen kĂvĂĽl hagyja az adott kultĂşrára vagy fenolĂłgiai fázisra vonatkozĂł korlátozásokat.
2) Ötletgenerálás: újszerű, de nem kivitelezhető
Az idea generation területen a modellek gyakran hoznak újszerűnek tűnő ötleteket, de a szerzők szerint tipikus gond, hogy az ötletek:
- nem elég részletesek,
- hiányzik a megvalĂłsĂtási Ăşt,
- Ă©s a megvalĂłsĂthatĂłság (feasibility) gyenge.
Ez különösen veszélyes ott, ahol az „ötlet” könnyen átcsúszik döntéssé.
3) Dry kĂsĂ©rletek: fut a kĂłd, de rossz az eredmĂ©ny
A tanulmány egyik legjobb, nagyon „termékes” meglátása: a modellek sokszor magas arányban generálnak futtatható kódot, de az eredmények pontossága már alacsony.
Magyarul: nem attól lesz helyes egy elemzés, hogy lefut.
EgĂ©szsĂ©gĂĽgyben ez az EHR-adatokon (kĂłrlap, labordata, gyĂłgyszerelĂ©s) futĂł modelleknĂ©l kritikus: az adattisztĂtás, a kohorsz-kĂ©pzĂ©s, a hiányzĂł adatok kezelĂ©se mind olyan pont, ahol a „szĂ©p kĂłd” mĂ©g nem jelent jĂł tudományt.
Mezőgazdaságban ugyanez a hozam-előrejelzésnél vagy talajnedvesség-modellezésnél: egy pipeline futhat, csak épp rossz target-szivárgással, rossz validációval vagy félreértelmezett szenzormértékegységekkel.
4) Wet kĂsĂ©rletek: alacsony protokoll-hűsĂ©g
A „nedves” kĂsĂ©rleteknĂ©l (laborprotokollok) a cikk szerint a modellek alacsony szekvencia-hűsĂ©ggel adják vissza a helyes lĂ©pĂ©ssorrendet. Ez a laborban nem esztĂ©tikai kĂ©rdĂ©s: egy hibás sorrend tönkreteheti a mintát, vagy hamis eredmĂ©nyt ad.
A mezĹ‘gazdasági párhuzam itt a terepi protokoll: mintavĂ©teli rend, tárolási hĹ‘mĂ©rsĂ©klet, idĹ‘zĂtĂ©s, kezelĂ©s–kontroll logika. A lĂ©pĂ©sek sorrendje számĂt.
5) Multimodális összehasonlĂtĂł következtetĂ©s: makacs problĂ©ma
A szerzĹ‘k szerint a modellek továbbra is gyengĂ©k a multimodális, összehasonlĂtĂł Ă©rvelĂ©sben (pĂ©ldául több ábra/kĂ©p/eredmĂ©ny összevetĂ©se Ă©s következtetĂ©s levonása).
Ez különösen releváns:
- orvosi képalkotásban (több metszet, több időpont, több modalitás),
- agrárban (drónkép + meteorológia + talaj + történeti hozam).
Mi az a TTRL, és miért izgalmas a „tesztidős” tanulás?
A tanulmány bevezet egy módszert: Test-Time Reinforcement Learning (TTRL). A lényeg, hogy a modell inferencia közben (tehát használatkor) kap egy optimalizálási jelet, amely a retrieval-alapú (külső tudásból visszakeresett) újszerűséget jutalmazza.
A cikk állĂtása szerint ez kĂ©pes növelni a hipotĂ©zisek ĂşjszerűsĂ©gĂ©t akkor is, ha nincs referencia-válasz.
A gyakorlati ĂĽzenet számomra: a jövĹ‘ AI-rendszerei nem csak „kĂ©rdĂ©s–válasz” gĂ©pek lesznek, hanem adaptĂv kutatĂłtársak, amelyek a feladat közben finoman korrigálnak.
Egészségügyi alkalmazásban ez például azt jelentheti, hogy egy modell nem csak összefoglalja a szakirodalmat, hanem keresési–érvelési ciklusokban képes jobb, tesztelhető hipotéziseket adni.
Hogyan használd ezt a szemléletet AI-projektben (egészségügyben és agrárban is)
Ha most AI-megoldást fejlesztesz, vásárolsz vagy pilotolsz, az SGI-Bench szemlélete szerintem egy konkrét ellenőrzőlistát ad. Nem elmélet. Projektmentés.
1) Workflow-szintű célokat definiálj, ne modell-pontszámokat
Ahelyett, hogy „legyen 92% pontosság”, fogalmazz Ăgy:
- Irodalomfeltárás: 30 releváns forrásbĂłl 25-öt helyesen azonosĂt Ă©s helyesen idĂ©z.
- Protokoll: 12 lépésből 12 helyes sorrendben, kritikus hibával: 0.
- EredmĂ©nyĂ©rtelmezĂ©s: a top-3 alternatĂv magyarázatbĂłl legalább 2-t megnevez, Ă©s jelzi a bizonytalanságot.
2) Válaszd szét a „szép szöveg” és a „helyes munka” ellenőrzését
Én azt látom, hogy a legtöbb csapat ott csúszik el, hogy a demóban a modell „meggyőző”. Az SGI-Bench eredményei alapján érdemes külön mérni:
- lépéshelyesség,
- végeredmény-helyesség,
- forráskezelési fegyelem,
- és a hibák súlyosságát (kritikus vs. kozmetikai).
3) Tedd kötelezővé a „Perception” fázist: ellenőrzés, összevetés, sanity check
A rendszernek legyen explicit feladata, hogy:
- ellenĹ‘rizze saját állĂtásait,
- alternatĂv hipotĂ©ziseket adjon,
- és jelezze, hogy mit nem tud.
A valós környezetben (kórház, üvegház, szántóföld) ez a rész hozza a biztonságot.
Mi következik ebből a „Mesterséges intelligencia a mezőgazdaságban” sorozatban?
A mezőgazdasági AI sokszor látványos: drónképek, térképek, szenzorhálózatok. De a következő szint nem a látvány. A következő szint a tudósszerű munkafolyamat.
Ha az AI képes egy agronómus vagy növényorvos gondolkodási ritmusát követni (adatgyűjtés → hipotézis → terepi teszt → értelmezés), akkor:
- gyorsabban lesz megbĂzhatĂł a növĂ©nybetegsĂ©g-felismerĂ©s,
- jobb lesz az input-optimalizálás (vĂz, műtrágya, növĂ©nyvĂ©delem),
- és csökken a „próbáljuk ki és majd meglátjuk” költsége.
UgyanĂgy az egĂ©szsĂ©gĂĽgyben: a diagnosztikai támogatás Ă©rtĂ©ke akkor lesz igazán nagy, amikor a rendszer nem csak felismer, hanem következetesen vĂ©gigviszi a szakmai workflow-t, Ă©s auditálhatĂłan dokumentálja a döntĂ©si Ăştvonalat.
Egy mondatban: a tudományos intelligencia nem „okos válasz”, hanem fegyelmezett folyamat.
A következĹ‘ hetekben (2026 elejĂ©n) Ă©n erre fĂłkuszálnĂ©k a projektekben: workflow-alapĂş tesztkĂ©szletek, szerepkörökhöz (orvos, laboros, agronĂłmus) igazĂtott Ă©rtĂ©kelĂ©s, Ă©s olyan pilotok, ahol a modellnek nem csak beszĂ©lni kell, hanem dolgozni.
Te hol látod a nagyobb kockázatot: az ötletgenerálásnál, a protokolloknál, vagy az eredmények értelmezésénél?