AI, ami „kutatóként” dolgozik: mit hoz az SGI-Bench?

Mesterséges intelligencia a mezőgazdaságban és agrártechnológiábanBy 3L3C

SGI-Bench: új mérce arra, mennyire tud az AI „kutatóként” dolgozni. Mit jelent ez az egészségügyben és a precíziós agrár AI-ban?

SGI-BenchLLM értékelésAI kutatási workflowegészségügyi AIprecíziós mezőgazdaságagrártechnológia
Share:

Featured image for AI, ami „kutatóként” dolgozik: mit hoz az SGI-Bench?

AI, ami „kutatóként” dolgozik: mit hoz az SGI-Bench?

2025 végén egy friss kutatás elég kellemetlen tükröt tart a nagy nyelvi modellek (LLM-ek) elé: hiába tudnak meggyőzően „okoskodni”, a valódi, tudományos munkafolyamatokban (irodalomfeltárás, hipotézisalkotás, kísérlettervezés, eredményértelmezés) sokszor megbicsaklanak. A szerzők a „tudományos általános intelligencia” (Scientific General Intelligence, SGI) fogalmát próbálják kézzelfoghatóvá tenni, és ehhez egy új mércét is adnak: SGI-Bench, több mint 1000, szakértők által kurált feladattal.

Ez a téma nem csak az akadémiai vitákról szól. Ha AI-t használunk egészségügyben (diagnosztikai támogatás, kutatás, klinikai döntéstámogatás) vagy a sorozatunk fő területén, a precíziós mezőgazdaságban és agrártechnológiában (növénybetegség-felismerés, input-optimalizálás, hozambecslés), akkor ugyanaz a kérdés jön elő: tud-e az AI következetesen, ellenőrizhetően végigmenni a szakértői munkafolyamaton, vagy csak jól hangzó szöveget gyárt?

A kutatás üzenete szerintem egyszerű: nem az a lényeg, hogy a modell mennyire „okosnak tűnik”, hanem hogy mennyire megbízható egy teljes workflow-ban. A gyakorlatban ez dönti el, hogy lesz-e belőle használható megoldás egy kórházban, egy laborban vagy akár egy gazdaságban.

Mit mér az SGI-Bench, és miért jobb, mint egy sima „tesztkérdés”?

Az SGI-Bench alapállítása, hogy a tudományos teljesítményt nem lehet korrektül mérni pár okos kérdéssel vagy feleletválasztós teszttel. A tudományos munka folyamat, amiben van tervezés, visszacsatolás, hibajavítás és bizonytalanságkezelés.

A keretet egy Practical Inquiry Model (PIM) nevű, négy lépésre bontott modell adja:

  • Deliberation (mérlegelés): mit tudunk, mi hiányzik, mi a kockázat?
  • Conception (koncepció): hipotézis, terv, várható eredmények.
  • Action (cselekvés): konkrét kísérlet/elemzés/protokoll.
  • Perception (észlelés): eredmények értelmezése, összevetés, következtetés.

A benchmark ezt tudósokhoz igazított feladatokkal operationalizálja (nem csak „szövegértés”, hanem valódi kutatói tevékenységek mintázata).

A négy fő feladattípus röviden

A cikk négy workflow-t emel ki:

  1. Deep research (mély irodalmi és tényfeltáró kutatás)
  2. Idea generation (ötlet- és hipotézisgenerálás)
  3. Dry experiments (szimuláció/elemzés/kód-alapú kísérletek)
  4. Wet experiments (laborprotokollok, „nedves” kísérletek tervezése)

És jön a lényeg: a modellek a lépések egy részét „jól eljátsszák”, de a végkimenet sokszor elvérzik.

Mit tanulhat ebből az egészségügy – és mit a mezőgazdaság?

Az SGI-Bench eredményei szerintem két területnek különösen relevánsak: orvosi kutatás/diagnosztika és agrár K+F/precíziós gazdálkodás. Mindkettőnél gyakori, hogy:

  • sok forrásból jön adat (publikációk, szenzorok, képek, laboreredmények),
  • nagy a tét (téves diagnózis vagy rossz beavatkozás),
  • a workflow több szereplős (szakértők, asszisztensek, rendszerek),
  • és kell auditálhatóság.

A kutatás fő üzenete: a modell teljesítménye nem egy pontszám, hanem egy lánc erőssége. Ha a lánc bármelyik pontján törik (például rossz protokoll-lépés, hibás eredményértelmezés), az egész folyamat veszélyessé válik.

A mezőgazdaságban ugyanez jelenik meg, csak más köntösben: egy modell lehet jó abban, hogy „felismer valamit” egy levélfotón, de ha rossz az ajánlott beavatkozás (permetezési protokoll, dózis, időzítés), akkor a kár gyorsan kézzelfogható.

A kutatás legfontosabb (és kicsit kijózanító) eredményei

A tanulmány több, számszerűen is könnyen idézhető megállapítást közöl. Ezeket érdemes úgy olvasni, mint figyelmeztető táblákat a termékfejlesztésben.

1) Mély kutatás: 10–20% „exact match”

A deep research feladatoknál a modellek lépésenként sokszor „egy irányba mennek” a jó megoldással (tehát a gondolatmenet részben stimmel), mégis alacsony, 10–20% közötti az exact match arány.

Ez a gyakorlatban azt jelenti, hogy egy AI-asszisztens:

  • jól összefoglal,
  • okosan hangzó hivatkozási logikát mutat,
  • de a végén könnyen elcsúszik egy kritikus tényen, definíción vagy kivételen.

Egészségügyi példa: egy klinikai összefoglaló „majdnem jó”, de rossz indikációval vagy rossz kontraindikációval javasol egy lépést.

Agrár példa: egy kártevőkezelési javaslat helyesnek tűnik, de figyelmen kívül hagyja az adott kultúrára vagy fenológiai fázisra vonatkozó korlátozásokat.

2) Ötletgenerálás: újszerű, de nem kivitelezhető

Az idea generation területen a modellek gyakran hoznak újszerűnek tűnő ötleteket, de a szerzők szerint tipikus gond, hogy az ötletek:

  • nem elég részletesek,
  • hiányzik a megvalósítási út,
  • és a megvalósíthatóság (feasibility) gyenge.

Ez különösen veszélyes ott, ahol az „ötlet” könnyen átcsúszik döntéssé.

3) Dry kísérletek: fut a kód, de rossz az eredmény

A tanulmány egyik legjobb, nagyon „termékes” meglátása: a modellek sokszor magas arányban generálnak futtatható kódot, de az eredmények pontossága már alacsony.

Magyarul: nem attól lesz helyes egy elemzés, hogy lefut.

Egészségügyben ez az EHR-adatokon (kórlap, labordata, gyógyszerelés) futó modelleknél kritikus: az adattisztítás, a kohorsz-képzés, a hiányzó adatok kezelése mind olyan pont, ahol a „szép kód” még nem jelent jó tudományt.

Mezőgazdaságban ugyanez a hozam-előrejelzésnél vagy talajnedvesség-modellezésnél: egy pipeline futhat, csak épp rossz target-szivárgással, rossz validációval vagy félreértelmezett szenzormértékegységekkel.

4) Wet kísérletek: alacsony protokoll-hűség

A „nedves” kísérleteknél (laborprotokollok) a cikk szerint a modellek alacsony szekvencia-hűséggel adják vissza a helyes lépéssorrendet. Ez a laborban nem esztétikai kérdés: egy hibás sorrend tönkreteheti a mintát, vagy hamis eredményt ad.

A mezőgazdasági párhuzam itt a terepi protokoll: mintavételi rend, tárolási hőmérséklet, időzítés, kezelés–kontroll logika. A lépések sorrendje számít.

5) Multimodális összehasonlító következtetés: makacs probléma

A szerzők szerint a modellek továbbra is gyengék a multimodális, összehasonlító érvelésben (például több ábra/kép/eredmény összevetése és következtetés levonása).

Ez különösen releváns:

  • orvosi képalkotásban (több metszet, több időpont, több modalitás),
  • agrárban (drónkép + meteorológia + talaj + történeti hozam).

Mi az a TTRL, és miért izgalmas a „tesztidős” tanulás?

A tanulmány bevezet egy módszert: Test-Time Reinforcement Learning (TTRL). A lényeg, hogy a modell inferencia közben (tehát használatkor) kap egy optimalizálási jelet, amely a retrieval-alapú (külső tudásból visszakeresett) újszerűséget jutalmazza.

A cikk állítása szerint ez képes növelni a hipotézisek újszerűségét akkor is, ha nincs referencia-válasz.

A gyakorlati üzenet számomra: a jövő AI-rendszerei nem csak „kérdés–válasz” gépek lesznek, hanem adaptív kutatótársak, amelyek a feladat közben finoman korrigálnak.

Egészségügyi alkalmazásban ez például azt jelentheti, hogy egy modell nem csak összefoglalja a szakirodalmat, hanem keresési–érvelési ciklusokban képes jobb, tesztelhető hipotéziseket adni.

Hogyan használd ezt a szemléletet AI-projektben (egészségügyben és agrárban is)

Ha most AI-megoldást fejlesztesz, vásárolsz vagy pilotolsz, az SGI-Bench szemlélete szerintem egy konkrét ellenőrzőlistát ad. Nem elmélet. Projektmentés.

1) Workflow-szintű célokat definiálj, ne modell-pontszámokat

Ahelyett, hogy „legyen 92% pontosság”, fogalmazz így:

  • Irodalomfeltárás: 30 releváns forrásból 25-öt helyesen azonosít és helyesen idéz.
  • Protokoll: 12 lépésből 12 helyes sorrendben, kritikus hibával: 0.
  • Eredményértelmezés: a top-3 alternatív magyarázatból legalább 2-t megnevez, és jelzi a bizonytalanságot.

2) Válaszd szét a „szép szöveg” és a „helyes munka” ellenőrzését

Én azt látom, hogy a legtöbb csapat ott csúszik el, hogy a demóban a modell „meggyőző”. Az SGI-Bench eredményei alapján érdemes külön mérni:

  • lépéshelyesség,
  • végeredmény-helyesség,
  • forráskezelési fegyelem,
  • és a hibák súlyosságát (kritikus vs. kozmetikai).

3) Tedd kötelezővé a „Perception” fázist: ellenőrzés, összevetés, sanity check

A rendszernek legyen explicit feladata, hogy:

  • ellenőrizze saját állításait,
  • alternatív hipotéziseket adjon,
  • és jelezze, hogy mit nem tud.

A valós környezetben (kórház, üvegház, szántóföld) ez a rész hozza a biztonságot.

Mi következik ebből a „Mesterséges intelligencia a mezőgazdaságban” sorozatban?

A mezőgazdasági AI sokszor látványos: drónképek, térképek, szenzorhálózatok. De a következő szint nem a látvány. A következő szint a tudósszerű munkafolyamat.

Ha az AI képes egy agronómus vagy növényorvos gondolkodási ritmusát követni (adatgyűjtés → hipotézis → terepi teszt → értelmezés), akkor:

  • gyorsabban lesz megbízható a növénybetegség-felismerés,
  • jobb lesz az input-optimalizálás (víz, műtrágya, növényvédelem),
  • és csökken a „próbáljuk ki és majd meglátjuk” költsége.

Ugyanígy az egészségügyben: a diagnosztikai támogatás értéke akkor lesz igazán nagy, amikor a rendszer nem csak felismer, hanem következetesen végigviszi a szakmai workflow-t, és auditálhatóan dokumentálja a döntési útvonalat.

Egy mondatban: a tudományos intelligencia nem „okos válasz”, hanem fegyelmezett folyamat.

A következő hetekben (2026 elején) én erre fókuszálnék a projektekben: workflow-alapú tesztkészletek, szerepkörökhöz (orvos, laboros, agronómus) igazított értékelés, és olyan pilotok, ahol a modellnek nem csak beszélni kell, hanem dolgozni.

Te hol látod a nagyobb kockázatot: az ötletgenerálásnál, a protokolloknál, vagy az eredmények értelmezésénél?

🇭🇺 AI, ami „kutatóként” dolgozik: mit hoz az SGI-Bench? - Hungary | 3L3C