Mesterséges intelligencia az oktatásban és EdTech területen•2025. december 22.•By 3L3C

Hibás gondolatmenetekkel tréningelve az AI jobban javít hibákat. Ez EdTech-ben pontosabb visszajelzést, az egészségügyben biztonságosabb döntéstámogatást jelent.

LLM robusztusságChain-of-thoughtEdTechAI tutorEgészségügyi AIHibajavítás

Featured image for Hibás gondolatmenetből pontosabb AI: miért számít ez?

Hibás gondolatmenetből pontosabb AI: miért számít ez?

Egy AI-modellnél gyakran nem az a baj, hogy „nem tudja” a választ, hanem az, hogy egy korai, apró hiba úgy bebetonozódik a gondolatmenetbe, hogy onnan már nem tud visszafordulni. Egy elrontott előjel, egy rosszul alkalmazott szabály, egy indokolatlan következtetés — és a végén magabiztosan jön a rossz eredmény.

2025.12.22-én egy friss kutatás épp erre mutat rá: ha a nagy „reasoning” modelleket (LRM-eket) szándékosan hibás gondolatmenetekkel is tanítjuk, akkor jobban megtanulhatják észrevenni, hogy „itt valami sántít”, és képesek lehetnek javítani menet közben — úgy, hogy közben a normál feladatmegoldási pontosságuk nem romlik. Nekem ez azért izgalmas, mert nem csak matek: ugyanaz a hibatűrés és önellenőrzés hiányzik sok olyan AI-megoldásból, amit az egészségügyben, oktatásban vagy döntéstámogatásban szeretnénk használni.

És mivel ez a cikk a „Mesterséges intelligencia az oktatásban és EdTech területen” sorozat része, végig úgy nézzük a tanulságokat, hogy mit jelent mindez tanulási platformok, automatikus értékelés, korrepetálás és visszajelzés szempontjából — és közben kinyitjuk az ajtót a kampány fő üzenete felé is: AI az egészségügyben, ahol a hibák ára magas.

Mit állít a kutatás, és mi benne az újdonság?

A lényeg egy mondatban: a hibás gondolatmenetekkel való célzott tréning növeli a modell „hiba-helyreállítási” képességét, anélkül hogy rontaná a tiszta feladatokon mért pontosságot.

A tanulmány szerzői verseny-szintű matematikai feladatokon (MATH-lighteval) teszteltek, és egy érdekes helyzetet modelleztek: a modell kap egy chain-of-thought (CoT) prefixet, vagyis egy részben kitöltött megoldási vázat — csakhogy ebben pontosan egy kontrollált hiba van. Kétféle hibát injektáltak:

Számolási hiba: előjelcsere, tag elhagyása, „félreütés” jellegű tévesztés.
Érvelési hiba: szabály rossz alkalmazása, nem igazolt logikai lépés, hibás következtetés.

Ezután egy 4B paraméteres modellt (Qwen3-4B) finomhangoltak megerősítéses tanulással (GRPO), és csak a végső választ jutalmazták binárisan (jó/rossz). Vagyis nem azt tanították, hogy „szép gondolatmenetet írjon”, hanem azt, hogy a végén legyen jó a válasz — akár úgy is, hogy közben észreveszi: a kapott előtöltött gondolatmenet hibás.

A kulcsszámok, amik miatt érdemes figyelni:

Tiszta (hibamentes) feladatokon: a „Mixed-CoT-RL” modell 41%, ami megegyezik a standard RL finomhangolással (41%).
Hibás prefillel ellátott feladatokon: Mixed-CoT-RL 24%, standard RL 19%.
A meglepő rész: a csak „tiszta” feladatokon RL-lel finomhangolt modell rosszabbul bírja a hibás prefilleket, mint a kiinduló alapmodell: 19% vs 20%.

Ez egy elég kemény üzenet: a hagyományos „csak a helyes megoldásokra” optimalizálás növelheti a modell befolyásolhatóságát.

Miért törékeny a CoT, és miért gond ez az oktatásban?

A direkt válasz: mert a modell gyakran „hű” marad a korai lépésekhez, és nem auditálja őket elég agresszíven.

A „korai hiba” jelenség EdTech környezetben

Ha egy digitális tutor vagy házi feladat-ellenőrző rendszer hibás vázlatot ad (vagy a diák hibás vázlatát veszi át), akkor a modell könnyen belecsúszik abba, hogy:

elfogadja a hibás premisszát,
logikusan építkezik rá,
és a végén magabiztosan rossz választ ad.

Ez az oktatásban nem csak pontszám kérdése. Rosszabb: rossz mentális modellt erősít. A diák azt tanulja meg, hogy „így kell gondolkodni”, pedig épp nem.

Miért különösen aktuális 2025 végén?

Decemberben jellemzően felerősödnek az EdTech használati csúcsok: félévzárások, vizsgaidőszak, pótZH-k, érettségi felkészülés. Ilyenkor sok intézmény és tanuló gyorsan nyúl AI-tutorhoz. Ha az AI nem tud jól hibát javítani, akkor pont a legkritikusabb időszakban adhat rossz visszajelzést.

A kutatás üzenete EdTech nyelvre fordítva: ne csak „helyes megoldásokat” mutassunk a modellnek, hanem tanítsuk meg hibás megoldásokból kijönni.

Miért fontosabb az érvelési hiba, mint a számolási hiba?

A tanulmány szerint az érvelési hibákra tréning nagyobb robusztussági nyereséget adott, mint pusztán számolási hibákra.

A direkt magyarázat: a számolási hibát sokszor egy ellenőrző lépés (újraszámolás, becslés) kiszúrja, míg az érvelési hiba „szépnek tűnik” és könnyebben átcsúszik.

Párhuzam az egészségüggyel (kampánykapcsolódás)

Az egészségügyi döntéstámogatásban a legveszélyesebb hibák gyakran nem „számolási” jellegűek, hanem okfejtési:

rossz triázs-logika (nem a megfelelő veszélyjelet priorizálja),
guideline téves alkalmazása (rossz indikáció),
nem igazolt következtetés (egy tünetből túl gyors diagnózis).

Ha egy AI-t úgy akarunk használni, hogy csökkentse az orvosi hibákat, akkor nem elég, hogy „néha jó válaszokat ad”. Kell az a készség, hogy észrevegye: hibás a gondolatmenet, amit követne.

És itt jön a közös pont a matek és a diagnosztika között: mindkettőben vannak többlépéses döntési láncok, ahol az első rossz lépés aránytalanul drága.

Hogyan nézne ki ugyanez egy EdTech termékben?

A lényeg: a hibás prefillek nem ellenségek, hanem tananyag — feltéve, hogy jól vannak kontrollálva.

1) „Hibás megoldás javítása” mint tanulási feladat

Ahelyett, hogy a rendszer mindig a tökéletes megoldást mutatja, adhat:

egy részben kitöltött, szándékosan hibás megoldást,
és kéri a diákot (vagy a modellt), hogy:
1. azonosítsa a hibát,
2. indokolja, miért hiba,
3. javítsa,
4. majd adja meg a végső választ.

Ez nem csak a modellnek jó. A diák számára ez a legerősebb készség: hibakeresés és önellenőrzés.

2) Automatikus értékelés: ne csak a végeredményt nézze

A kutatásban a jutalom bináris volt (jó/rossz végső válasz). EdTech-ben én egy lépéssel tovább mennék:

pontozzuk külön a hibafelismerést,
jutalmazzuk, ha a diák javítást javasol,
adjunk célzott visszajelzést: „itt rosszul alkalmaztad a szabályt, nem a szorzatösszeget.”

Ebből lesz valódi adaptív tanulás.

3) „Robusztussági teszt” a bevezetés előtt

Ha egy AI-tanársegédet bevezetünk, érdemes egy belső tesztcsomagot csinálni:

helyes megoldás-vázak,
hibás vázak (számolási és érvelési),
félrevezető, de „hihető” vázak.

Cél KPI-k (gyakorlatias, mérhető):

Hibás váz esetén mennyire csökken a pontosság?
A modell jelzi-e, hogy bizonytalan?
Képes-e „visszalépni” és újrakezdeni?

A tanulmány számai alapján teljesen reális elvárás, hogy a hibás prefilleken mért teljesítményt célozott tréninggel érdemben feljebb lehet vinni (pl. 19% → 24% jellegű ugrásokkal) anélkül, hogy a „tiszta” pontosság csökkenne.

„Emberek ezt is kérdezik”: gyakori félreértések

„Nem veszélyes hibás gondolatmeneteket tanítani?”

Direkt válasz: akkor veszélyes, ha a tréning nem kontrollált. A kutatás pont azt csinálta jól, hogy egy darab jól definiált hibát tett a láncba, így a modell azt tanulja: „a gondolatmenet ellenőrizhető, és javítható.”

„Ez azt jelenti, hogy az AI most már ‘önjavító’?”

Nem. A 24% hibás prefilleken még mindig messze van attól, hogy hátradőljünk. Viszont irányt mutat: a robusztusság tanítható.

„Mi köze ennek a diagnosztikához?”

A közös nevező a többlépéses érvelés és a korai hibák dominóhatása. Egy félrevezető anamnézis-részlet vagy egy rossz premissza ugyanúgy elviheti a következtetést, mint egy hibás matek-lépés.

Mit vigyél magaddal ebből, ha EdTech vagy egészségügyi AI-n dolgozol?

A direkt üzenet: a megbízhatóság nem csak több adat és nagyobb modell kérdése, hanem tréning-stratégia.

Ha én termékoldalon ülnék, ezt a három lépést tenném meg 30 nap alatt:

Hozz létre egy „hibakatalógust” (10–20 tipikus számolási és érvelési hiba a domainben: matek, biológia, ápolástan, stb.).
Építs hibás prefillekből tesztkészletet, és mérd a jelenlegi rendszer „félrevezethetőségét”.
Vezess be célzott robusztussági finomhangolást (vagy legalább prompt-szintű ellenőrző lépéseket), és nézd meg, javul-e a hibából visszajövés anélkül, hogy a normál pontosság esne.

Ez a gondolkodásmód jól illeszkedik az EdTech trendekhez (adaptív tanulás, kompetencia-alapú értékelés), és egyben közvetlenül támogatja a kampány nagyobb állítását is: az egészségügyi AI akkor lesz igazán hasznos, ha nem csak „okos”, hanem hibatűrő.

A következő kérdés, amivel 2026 elején sok csapatnak szembe kell néznie: ha egy modell képes kijavítani egy hibás matek-gondolatmenetet, mennyire tudjuk ugyanezt standardizálni klinikai döntési láncokra, triázsra és diagnosztikai érvelésre — úgy, hogy közben auditálható és biztonságos marad?