Hibás gondolatmenetekkel tréningelve az AI jobban javít hibákat. Ez EdTech-ben pontosabb visszajelzést, az egészségügyben biztonságosabb döntéstámogatást jelent.

Hibás gondolatmenetből pontosabb AI: miért számít ez?
Egy AI-modellnél gyakran nem az a baj, hogy „nem tudja” a választ, hanem az, hogy egy korai, apró hiba úgy bebetonozódik a gondolatmenetbe, hogy onnan már nem tud visszafordulni. Egy elrontott előjel, egy rosszul alkalmazott szabály, egy indokolatlan következtetés — és a végén magabiztosan jön a rossz eredmény.
2025.12.22-én egy friss kutatás épp erre mutat rá: ha a nagy „reasoning” modelleket (LRM-eket) szándékosan hibás gondolatmenetekkel is tanítjuk, akkor jobban megtanulhatják észrevenni, hogy „itt valami sántít”, és képesek lehetnek javítani menet közben — úgy, hogy közben a normál feladatmegoldási pontosságuk nem romlik. Nekem ez azért izgalmas, mert nem csak matek: ugyanaz a hibatűrés és önellenőrzés hiányzik sok olyan AI-megoldásból, amit az egészségügyben, oktatásban vagy döntéstámogatásban szeretnénk használni.
És mivel ez a cikk a „Mesterséges intelligencia az oktatásban és EdTech területen” sorozat része, végig úgy nézzük a tanulságokat, hogy mit jelent mindez tanulási platformok, automatikus értékelés, korrepetálás és visszajelzés szempontjából — és közben kinyitjuk az ajtót a kampány fő üzenete felé is: AI az egészségügyben, ahol a hibák ára magas.
Mit állít a kutatás, és mi benne az újdonság?
A lényeg egy mondatban: a hibás gondolatmenetekkel való célzott tréning növeli a modell „hiba-helyreállítási” képességét, anélkül hogy rontaná a tiszta feladatokon mért pontosságot.
A tanulmány szerzői verseny-szintű matematikai feladatokon (MATH-lighteval) teszteltek, és egy érdekes helyzetet modelleztek: a modell kap egy chain-of-thought (CoT) prefixet, vagyis egy részben kitöltött megoldási vázat — csakhogy ebben pontosan egy kontrollált hiba van. Kétféle hibát injektáltak:
- Számolási hiba: előjelcsere, tag elhagyása, „félreütés” jellegű tévesztés.
- Érvelési hiba: szabály rossz alkalmazása, nem igazolt logikai lépés, hibás következtetés.
Ezután egy 4B paraméteres modellt (Qwen3-4B) finomhangoltak megerősítéses tanulással (GRPO), és csak a végső választ jutalmazták binárisan (jó/rossz). Vagyis nem azt tanították, hogy „szép gondolatmenetet írjon”, hanem azt, hogy a végén legyen jó a válasz — akár úgy is, hogy közben észreveszi: a kapott előtöltött gondolatmenet hibás.
A kulcsszámok, amik miatt érdemes figyelni:
- Tiszta (hibamentes) feladatokon: a „Mixed-CoT-RL” modell 41%, ami megegyezik a standard RL finomhangolással (41%).
- Hibás prefillel ellátott feladatokon: Mixed-CoT-RL 24%, standard RL 19%.
- A meglepő rész: a csak „tiszta” feladatokon RL-lel finomhangolt modell rosszabbul bírja a hibás prefilleket, mint a kiinduló alapmodell: 19% vs 20%.
Ez egy elég kemény üzenet: a hagyományos „csak a helyes megoldásokra” optimalizálás növelheti a modell befolyásolhatóságát.
Miért törékeny a CoT, és miért gond ez az oktatásban?
A direkt válasz: mert a modell gyakran „hű” marad a korai lépésekhez, és nem auditálja őket elég agresszíven.
A „korai hiba” jelenség EdTech környezetben
Ha egy digitális tutor vagy házi feladat-ellenőrző rendszer hibás vázlatot ad (vagy a diák hibás vázlatát veszi át), akkor a modell könnyen belecsúszik abba, hogy:
- elfogadja a hibás premisszát,
- logikusan építkezik rá,
- és a végén magabiztosan rossz választ ad.
Ez az oktatásban nem csak pontszám kérdése. Rosszabb: rossz mentális modellt erősít. A diák azt tanulja meg, hogy „így kell gondolkodni”, pedig épp nem.
Miért különösen aktuális 2025 végén?
Decemberben jellemzően felerősödnek az EdTech használati csúcsok: félévzárások, vizsgaidőszak, pótZH-k, érettségi felkészülés. Ilyenkor sok intézmény és tanuló gyorsan nyúl AI-tutorhoz. Ha az AI nem tud jól hibát javítani, akkor pont a legkritikusabb időszakban adhat rossz visszajelzést.
A kutatás üzenete EdTech nyelvre fordítva: ne csak „helyes megoldásokat” mutassunk a modellnek, hanem tanítsuk meg hibás megoldásokból kijönni.
Miért fontosabb az érvelési hiba, mint a számolási hiba?
A tanulmány szerint az érvelési hibákra tréning nagyobb robusztussági nyereséget adott, mint pusztán számolási hibákra.
A direkt magyarázat: a számolási hibát sokszor egy ellenőrző lépés (újraszámolás, becslés) kiszúrja, míg az érvelési hiba „szépnek tűnik” és könnyebben átcsúszik.
Párhuzam az egészségüggyel (kampánykapcsolódás)
Az egészségügyi döntéstámogatásban a legveszélyesebb hibák gyakran nem „számolási” jellegűek, hanem okfejtési:
- rossz triázs-logika (nem a megfelelő veszélyjelet priorizálja),
- guideline téves alkalmazása (rossz indikáció),
- nem igazolt következtetés (egy tünetből túl gyors diagnózis).
Ha egy AI-t úgy akarunk használni, hogy csökkentse az orvosi hibákat, akkor nem elég, hogy „néha jó válaszokat ad”. Kell az a készség, hogy észrevegye: hibás a gondolatmenet, amit követne.
És itt jön a közös pont a matek és a diagnosztika között: mindkettőben vannak többlépéses döntési láncok, ahol az első rossz lépés aránytalanul drága.
Hogyan nézne ki ugyanez egy EdTech termékben?
A lényeg: a hibás prefillek nem ellenségek, hanem tananyag — feltéve, hogy jól vannak kontrollálva.
1) „Hibás megoldás javítása” mint tanulási feladat
Ahelyett, hogy a rendszer mindig a tökéletes megoldást mutatja, adhat:
- egy részben kitöltött, szándékosan hibás megoldást,
- és kéri a diákot (vagy a modellt), hogy:
- azonosítsa a hibát,
- indokolja, miért hiba,
- javítsa,
- majd adja meg a végső választ.
Ez nem csak a modellnek jó. A diák számára ez a legerősebb készség: hibakeresés és önellenőrzés.
2) Automatikus értékelés: ne csak a végeredményt nézze
A kutatásban a jutalom bináris volt (jó/rossz végső válasz). EdTech-ben én egy lépéssel tovább mennék:
- pontozzuk külön a hibafelismerést,
- jutalmazzuk, ha a diák javítást javasol,
- adjunk célzott visszajelzést: „itt rosszul alkalmaztad a szabályt, nem a szorzatösszeget.”
Ebből lesz valódi adaptív tanulás.
3) „Robusztussági teszt” a bevezetés előtt
Ha egy AI-tanársegédet bevezetünk, érdemes egy belső tesztcsomagot csinálni:
- helyes megoldás-vázak,
- hibás vázak (számolási és érvelési),
- félrevezető, de „hihető” vázak.
Cél KPI-k (gyakorlatias, mérhető):
- Hibás váz esetén mennyire csökken a pontosság?
- A modell jelzi-e, hogy bizonytalan?
- Képes-e „visszalépni” és újrakezdeni?
A tanulmány számai alapján teljesen reális elvárás, hogy a hibás prefilleken mért teljesítményt célozott tréninggel érdemben feljebb lehet vinni (pl. 19% → 24% jellegű ugrásokkal) anélkül, hogy a „tiszta” pontosság csökkenne.
„Emberek ezt is kérdezik”: gyakori félreértések
„Nem veszélyes hibás gondolatmeneteket tanítani?”
Direkt válasz: akkor veszélyes, ha a tréning nem kontrollált. A kutatás pont azt csinálta jól, hogy egy darab jól definiált hibát tett a láncba, így a modell azt tanulja: „a gondolatmenet ellenőrizhető, és javítható.”
„Ez azt jelenti, hogy az AI most már ‘önjavító’?”
Nem. A 24% hibás prefilleken még mindig messze van attól, hogy hátradőljünk. Viszont irányt mutat: a robusztusság tanítható.
„Mi köze ennek a diagnosztikához?”
A közös nevező a többlépéses érvelés és a korai hibák dominóhatása. Egy félrevezető anamnézis-részlet vagy egy rossz premissza ugyanúgy elviheti a következtetést, mint egy hibás matek-lépés.
Mit vigyél magaddal ebből, ha EdTech vagy egészségügyi AI-n dolgozol?
A direkt üzenet: a megbízhatóság nem csak több adat és nagyobb modell kérdése, hanem tréning-stratégia.
Ha én termékoldalon ülnék, ezt a három lépést tenném meg 30 nap alatt:
- Hozz létre egy „hibakatalógust” (10–20 tipikus számolási és érvelési hiba a domainben: matek, biológia, ápolástan, stb.).
- Építs hibás prefillekből tesztkészletet, és mérd a jelenlegi rendszer „félrevezethetőségét”.
- Vezess be célzott robusztussági finomhangolást (vagy legalább prompt-szintű ellenőrző lépéseket), és nézd meg, javul-e a hibából visszajövés anélkül, hogy a normál pontosság esne.
Ez a gondolkodásmód jól illeszkedik az EdTech trendekhez (adaptív tanulás, kompetencia-alapú értékelés), és egyben közvetlenül támogatja a kampány nagyobb állítását is: az egészségügyi AI akkor lesz igazán hasznos, ha nem csak „okos”, hanem hibatűrő.
A következő kérdés, amivel 2026 elején sok csapatnak szembe kell néznie: ha egy modell képes kijavítani egy hibás matek-gondolatmenetet, mennyire tudjuk ugyanezt standardizálni klinikai döntési láncokra, triázsra és diagnosztikai érvelésre — úgy, hogy közben auditálható és biztonságos marad?