AI, ami „kutatóként” dolgozik: mit hoz az SGI-Bench?

Mesterséges intelligencia a mezőgazdaságban és agrártechnológiában••By 3L3C

SGI-Bench: új mérce arra, mennyire tud az AI „kutatóként” dolgozni. Mit jelent ez az egészségügyben és a precíziós agrár AI-ban?

SGI-BenchLLM értékelésAI kutatási workflowegészségügyi AIprecíziós mezőgazdaságagrártechnológia
Share:

Featured image for AI, ami „kutatóként” dolgozik: mit hoz az SGI-Bench?

AI, ami „kutatóként” dolgozik: mit hoz az SGI-Bench?

2025 végén egy friss kutatás elég kellemetlen tükröt tart a nagy nyelvi modellek (LLM-ek) elé: hiába tudnak meggyőzően „okoskodni”, a valódi, tudományos munkafolyamatokban (irodalomfeltárás, hipotézisalkotás, kísérlettervezés, eredményértelmezés) sokszor megbicsaklanak. A szerzők a „tudományos általános intelligencia” (Scientific General Intelligence, SGI) fogalmát próbálják kézzelfoghatóvá tenni, és ehhez egy új mércét is adnak: SGI-Bench, több mint 1000, szakértők által kurált feladattal.

Ez a téma nem csak az akadémiai vitákról szól. Ha AI-t használunk egészségügyben (diagnosztikai támogatás, kutatás, klinikai döntéstámogatás) vagy a sorozatunk fő területén, a precíziós mezőgazdaságban és agrártechnológiában (növénybetegség-felismerés, input-optimalizálás, hozambecslés), akkor ugyanaz a kérdés jön elő: tud-e az AI következetesen, ellenőrizhetően végigmenni a szakértői munkafolyamaton, vagy csak jól hangzó szöveget gyárt?

A kutatás üzenete szerintem egyszerű: nem az a lényeg, hogy a modell mennyire „okosnak tűnik”, hanem hogy mennyire megbízható egy teljes workflow-ban. A gyakorlatban ez dönti el, hogy lesz-e belőle használható megoldás egy kórházban, egy laborban vagy akár egy gazdaságban.

Mit mér az SGI-Bench, és miért jobb, mint egy sima „tesztkérdés”?

Az SGI-Bench alapállítása, hogy a tudományos teljesítményt nem lehet korrektül mérni pár okos kérdéssel vagy feleletválasztós teszttel. A tudományos munka folyamat, amiben van tervezés, visszacsatolás, hibajavítás és bizonytalanságkezelés.

A keretet egy Practical Inquiry Model (PIM) nevű, négy lépésre bontott modell adja:

  • Deliberation (mĂ©rlegelĂ©s): mit tudunk, mi hiányzik, mi a kockázat?
  • Conception (koncepciĂł): hipotĂ©zis, terv, várhatĂł eredmĂ©nyek.
  • Action (cselekvĂ©s): konkrĂ©t kĂ­sĂ©rlet/elemzĂ©s/protokoll.
  • Perception (Ă©szlelĂ©s): eredmĂ©nyek Ă©rtelmezĂ©se, összevetĂ©s, következtetĂ©s.

A benchmark ezt tudósokhoz igazított feladatokkal operationalizálja (nem csak „szövegértés”, hanem valódi kutatói tevékenységek mintázata).

A négy fő feladattípus röviden

A cikk négy workflow-t emel ki:

  1. Deep research (mély irodalmi és tényfeltáró kutatás)
  2. Idea generation (ötlet- és hipotézisgenerálás)
  3. Dry experiments (szimuláció/elemzés/kód-alapú kísérletek)
  4. Wet experiments (laborprotokollok, „nedves” kísérletek tervezése)

És jön a lényeg: a modellek a lépések egy részét „jól eljátsszák”, de a végkimenet sokszor elvérzik.

Mit tanulhat ebből az egészségügy – és mit a mezőgazdaság?

Az SGI-Bench eredményei szerintem két területnek különösen relevánsak: orvosi kutatás/diagnosztika és agrár K+F/precíziós gazdálkodás. Mindkettőnél gyakori, hogy:

  • sok forrásbĂłl jön adat (publikáciĂłk, szenzorok, kĂ©pek, laboreredmĂ©nyek),
  • nagy a tĂ©t (tĂ©ves diagnĂłzis vagy rossz beavatkozás),
  • a workflow több szereplĹ‘s (szakĂ©rtĹ‘k, asszisztensek, rendszerek),
  • Ă©s kell auditálhatĂłság.

A kutatás fő üzenete: a modell teljesítménye nem egy pontszám, hanem egy lánc erőssége. Ha a lánc bármelyik pontján törik (például rossz protokoll-lépés, hibás eredményértelmezés), az egész folyamat veszélyessé válik.

A mezőgazdaságban ugyanez jelenik meg, csak más köntösben: egy modell lehet jó abban, hogy „felismer valamit” egy levélfotón, de ha rossz az ajánlott beavatkozás (permetezési protokoll, dózis, időzítés), akkor a kár gyorsan kézzelfogható.

A kutatás legfontosabb (és kicsit kijózanító) eredményei

A tanulmány több, számszerűen is könnyen idézhető megállapítást közöl. Ezeket érdemes úgy olvasni, mint figyelmeztető táblákat a termékfejlesztésben.

1) Mély kutatás: 10–20% „exact match”

A deep research feladatoknál a modellek lépésenként sokszor „egy irányba mennek” a jó megoldással (tehát a gondolatmenet részben stimmel), mégis alacsony, 10–20% közötti az exact match arány.

Ez a gyakorlatban azt jelenti, hogy egy AI-asszisztens:

  • jĂłl összefoglal,
  • okosan hangzĂł hivatkozási logikát mutat,
  • de a vĂ©gĂ©n könnyen elcsĂşszik egy kritikus tĂ©nyen, definĂ­ciĂłn vagy kivĂ©telen.

Egészségügyi példa: egy klinikai összefoglaló „majdnem jó”, de rossz indikációval vagy rossz kontraindikációval javasol egy lépést.

Agrár példa: egy kártevőkezelési javaslat helyesnek tűnik, de figyelmen kívül hagyja az adott kultúrára vagy fenológiai fázisra vonatkozó korlátozásokat.

2) Ötletgenerálás: újszerű, de nem kivitelezhető

Az idea generation területen a modellek gyakran hoznak újszerűnek tűnő ötleteket, de a szerzők szerint tipikus gond, hogy az ötletek:

  • nem elĂ©g rĂ©szletesek,
  • hiányzik a megvalĂłsĂ­tási Ăşt,
  • Ă©s a megvalĂłsĂ­thatĂłság (feasibility) gyenge.

Ez különösen veszélyes ott, ahol az „ötlet” könnyen átcsúszik döntéssé.

3) Dry kísérletek: fut a kód, de rossz az eredmény

A tanulmány egyik legjobb, nagyon „termékes” meglátása: a modellek sokszor magas arányban generálnak futtatható kódot, de az eredmények pontossága már alacsony.

Magyarul: nem attól lesz helyes egy elemzés, hogy lefut.

Egészségügyben ez az EHR-adatokon (kórlap, labordata, gyógyszerelés) futó modelleknél kritikus: az adattisztítás, a kohorsz-képzés, a hiányzó adatok kezelése mind olyan pont, ahol a „szép kód” még nem jelent jó tudományt.

Mezőgazdaságban ugyanez a hozam-előrejelzésnél vagy talajnedvesség-modellezésnél: egy pipeline futhat, csak épp rossz target-szivárgással, rossz validációval vagy félreértelmezett szenzormértékegységekkel.

4) Wet kísérletek: alacsony protokoll-hűség

A „nedves” kísérleteknél (laborprotokollok) a cikk szerint a modellek alacsony szekvencia-hűséggel adják vissza a helyes lépéssorrendet. Ez a laborban nem esztétikai kérdés: egy hibás sorrend tönkreteheti a mintát, vagy hamis eredményt ad.

A mezőgazdasági párhuzam itt a terepi protokoll: mintavételi rend, tárolási hőmérséklet, időzítés, kezelés–kontroll logika. A lépések sorrendje számít.

5) Multimodális összehasonlító következtetés: makacs probléma

A szerzők szerint a modellek továbbra is gyengék a multimodális, összehasonlító érvelésben (például több ábra/kép/eredmény összevetése és következtetés levonása).

Ez különösen releváns:

  • orvosi kĂ©palkotásban (több metszet, több idĹ‘pont, több modalitás),
  • agrárban (drĂłnkĂ©p + meteorolĂłgia + talaj + törtĂ©neti hozam).

Mi az a TTRL, és miért izgalmas a „tesztidős” tanulás?

A tanulmány bevezet egy módszert: Test-Time Reinforcement Learning (TTRL). A lényeg, hogy a modell inferencia közben (tehát használatkor) kap egy optimalizálási jelet, amely a retrieval-alapú (külső tudásból visszakeresett) újszerűséget jutalmazza.

A cikk állítása szerint ez képes növelni a hipotézisek újszerűségét akkor is, ha nincs referencia-válasz.

A gyakorlati üzenet számomra: a jövő AI-rendszerei nem csak „kérdés–válasz” gépek lesznek, hanem adaptív kutatótársak, amelyek a feladat közben finoman korrigálnak.

Egészségügyi alkalmazásban ez például azt jelentheti, hogy egy modell nem csak összefoglalja a szakirodalmat, hanem keresési–érvelési ciklusokban képes jobb, tesztelhető hipotéziseket adni.

Hogyan használd ezt a szemléletet AI-projektben (egészségügyben és agrárban is)

Ha most AI-megoldást fejlesztesz, vásárolsz vagy pilotolsz, az SGI-Bench szemlélete szerintem egy konkrét ellenőrzőlistát ad. Nem elmélet. Projektmentés.

1) Workflow-szintű célokat definiálj, ne modell-pontszámokat

Ahelyett, hogy „legyen 92% pontosság”, fogalmazz így:

  • Irodalomfeltárás: 30 releváns forrásbĂłl 25-öt helyesen azonosĂ­t Ă©s helyesen idĂ©z.
  • Protokoll: 12 lĂ©pĂ©sbĹ‘l 12 helyes sorrendben, kritikus hibával: 0.
  • EredmĂ©nyĂ©rtelmezĂ©s: a top-3 alternatĂ­v magyarázatbĂłl legalább 2-t megnevez, Ă©s jelzi a bizonytalanságot.

2) Válaszd szét a „szép szöveg” és a „helyes munka” ellenőrzését

Én azt látom, hogy a legtöbb csapat ott csúszik el, hogy a demóban a modell „meggyőző”. Az SGI-Bench eredményei alapján érdemes külön mérni:

  • lĂ©pĂ©shelyessĂ©g,
  • vĂ©geredmĂ©ny-helyessĂ©g,
  • forráskezelĂ©si fegyelem,
  • Ă©s a hibák sĂşlyosságát (kritikus vs. kozmetikai).

3) Tedd kötelezővé a „Perception” fázist: ellenőrzés, összevetés, sanity check

A rendszernek legyen explicit feladata, hogy:

  • ellenĹ‘rizze saját állĂ­tásait,
  • alternatĂ­v hipotĂ©ziseket adjon,
  • Ă©s jelezze, hogy mit nem tud.

A valós környezetben (kórház, üvegház, szántóföld) ez a rész hozza a biztonságot.

Mi következik ebből a „Mesterséges intelligencia a mezőgazdaságban” sorozatban?

A mezőgazdasági AI sokszor látványos: drónképek, térképek, szenzorhálózatok. De a következő szint nem a látvány. A következő szint a tudósszerű munkafolyamat.

Ha az AI képes egy agronómus vagy növényorvos gondolkodási ritmusát követni (adatgyűjtés → hipotézis → terepi teszt → értelmezés), akkor:

  • gyorsabban lesz megbĂ­zhatĂł a növĂ©nybetegsĂ©g-felismerĂ©s,
  • jobb lesz az input-optimalizálás (vĂ­z, műtrágya, növĂ©nyvĂ©delem),
  • Ă©s csökken a „prĂłbáljuk ki Ă©s majd meglátjuk” költsĂ©ge.

Ugyanígy az egészségügyben: a diagnosztikai támogatás értéke akkor lesz igazán nagy, amikor a rendszer nem csak felismer, hanem következetesen végigviszi a szakmai workflow-t, és auditálhatóan dokumentálja a döntési útvonalat.

Egy mondatban: a tudományos intelligencia nem „okos válasz”, hanem fegyelmezett folyamat.

A következő hetekben (2026 elején) én erre fókuszálnék a projektekben: workflow-alapú tesztkészletek, szerepkörökhöz (orvos, laboros, agronómus) igazított értékelés, és olyan pilotok, ahol a modellnek nem csak beszélni kell, hanem dolgozni.

Te hol látod a nagyobb kockázatot: az ötletgenerálásnál, a protokolloknál, vagy az eredmények értelmezésénél?