Matematikát tanító AI: alap a megbízható orvosi döntésekhez

Mesterséges intelligencia az oktatásban és EdTech területenBy 3L3C

A matematikai bizonyítások tanítása megmutatja, hogyan lesz az AI megbízhatóbb az oktatásban és az egészségügyben: jobb adat, jobb értékelés, jobb döntések.

LLMbenchmarkadatkészlet-tervezésEdTechegészségügyi AIdöntéstámogatás
Share:

Featured image for Matematikát tanító AI: alap a megbízható orvosi döntésekhez

Matematikát tanító AI: alap a megbízható orvosi döntésekhez

Az egészségügyi AI-ról sokszor úgy beszélünk, mintha a legnagyobb kihívás a „jobb modell” lenne. Szerintem ez félrevezető. A legtöbb rendszer ott csúszik el, ahol a legkevésbé látványos: a tanítóadat és az értékelés módján. Ha rosszul mérünk, rossz irányba fejlesztünk. Ha rosszul tanítunk, a modell ügyesen fog „vizsgázni”, de gyengén fog „gyógyítani”.

Pont erről szól egy friss, 2025-ben frissített arXiv-tanulmány, amely a matematikai „copilotok” (főleg nagy nyelvi modellek) képességét vizsgálja: nem elég a kész bizonyítások bemagolása. A kutatók azt állítják, hogy a mai benchmarkok sokszor csak azt mérik, mennyire jól utánoz a modell egy végső, leírt megoldást – miközben a valódi gondolkodás a motivációban, az útkeresésben és a hibajavításban történik.

Ez a gondolat elsőre „matekos belügynek” tűnik. Pedig az egészségügyben és az EdTech-ben is ugyanaz a tét: olyan AI-t akarunk, amely nem csak válaszokat ad, hanem jó okokkal, követhetően és ellenőrizhetően jut el oda. Egy diagnosztikai javaslatnál ez életet menthet.

Miért rossz irány a „tétel → bizonyítás” szemlélet?

A legfontosabb állítás: az eredmény-alapú tanítás (csak végső bizonyításokkal) félreviszi a modelleket, mert nem tanítja meg azt, amitől a gondolkodás megbízható lesz: a lépésenkénti döntéseket, a zsákutcák felismerését, a bizonytalanság kezelését.

A matematikai benchmarkok tipikusan így néznek ki: kapsz egy tételt, adj rá bizonyítást. Ez látványosan mérhető. Csakhogy a valódi matematikai munka ritkán ilyen.

Goodhart törvénye: ha a mérőszám a cél, elromlik a mérés

A tanulmány egyik központi problémája egy klasszikus jelenség: Goodhart törvénye. Amint egy benchmark pontszáma a fő cél lesz, a fejlesztés arra optimalizál, hogy a pontszám nőjön – nem arra, hogy a képesség valóban javuljon.

Egészségügyben ezt naponta látjuk más formában:

  • Ha egy triázs-rendszer csak „helyes kategóriát” kell adjon, könnyen megtanulja a felszíni mintákat.
  • Ha egy radiológiai modell csak AUC-ot maxol, előfordulhat, hogy nem a klinikailag fontos hibákat csökkenti (pl. ritka, de kritikus esetek).

A matekos párhuzam tanulsága: a jó AI nem attól lesz jó, hogy jól teljesít egy szűk vizsgán, hanem attól, hogy jól viselkedik a valós folyamatban.

Mit jelent a „motivált bizonyítás”, és mi köze az oktatáshoz?

A szerzők egy régi, de nagyon praktikus ötletet emelnek be: Pólya (1949) „motivált bizonyítás” koncepcióját. A lényeg: a bizonyítás nem csupán logikai lépések lánca, hanem egy történet arról, miért ezt a lépést választjuk.

EdTech szempontból ez arany:

  • Egy jó digitális tutor nem csak a megoldást írja le, hanem a gondolkodási mintát tanítja.
  • A tanuló nem attól lesz erős, hogy lát 100 kész megoldást, hanem attól, hogy megtanulja: „ha itt elakadok, ezt próbálom”, „ezt az invariánst keresem”, „itt érdemes példát nézni”.

Az AI-t ugyanígy kellene tanítani. És szerintem itt jön be a nagy váltás: a modelleknek nem „kész válaszokat”, hanem „jó döntési útvonalakat” kell adni tréningjelként.

Hogyan nézne ki egy Pólya-kompatibilis adatpélda?

Nem tétel + végső bizonyítás, hanem például:

  1. Motiváció: miért gondoljuk, hogy ez a lemmát érdemes bevezetni?
  2. Kísérletek: két rossz irány és miért rossz.
  3. Kulcslépés: mi az az ötlet, ami „átfordítja” a problémát?
  4. Formális bizonyítás: a végső, ellenőrizhető levezetés.

Ez EdTech-ben a „megoldásmenet kommentált verziója”. Az egészségügyben pedig a „döntési út indoklással”.

Miért számít ez az egészségügyi AI-ban? (Nem elmélet, gyakorlat)

A kulcsállítás: ha az AI megtanul jobb „bizonyítási” adatból gondolkodni, akkor jobb „klinikai érvelésben” is lesz. Nem azért, mert a diagnózis matematika, hanem mert a biztonságos döntéshozatal struktúrája hasonló.

1) Diagnosztika: a „kész válasz” kevés

Egy modell mondhatja azt, hogy „tüdőgyulladás”. De klinikailag az számít, hogy:

  • milyen jelek támasztják alá,
  • mi szól ellene,
  • mi a differenciáldiagnózis,
  • milyen további vizsgálat csökkenti a bizonytalanságot.

A bizonyításoknál ugyanez: a végső levezetés nem mutatja meg, hogyan jutottunk oda. A folyamat felügyelete (process supervision) vezet a megbízhatóbb viselkedéshez.

2) Orvosi képalkotás: a „jobb adatprezentáció” a rejtett nyereség

A tanulmány üzenete nem az, hogy „több adat kell”, hanem hogy jobban strukturált jel kell. Képalkotásban ez lehet:

  • annotációk, amelyek nem csak a léziót jelölik, hanem a bizonytalanságot is (pl. „határeset”),
  • többlépcsős címkézés (először durva triázs, majd finomabb altípus),
  • „miért” jelölések (mely vizuális jelre támaszkodik a szakértő).

Ez analóg a motivált bizonyítással: nem csak a végeredményt rögzítjük, hanem a döntési szempontokat.

3) Kórházi munkafolyamatok: a copilot akkor jó, ha kérdez is

A „copilot” szó itt tényleg találó. Egy kórházi admin/triázs/copilot rendszer akkor hasznos, ha:

  • jelzi, hol hiányos az információ,
  • rákérdez a kritikus adatra,
  • nem erőltet egyetlen választ, ha több út is él.

A matekos benchmarkok jelenlegi formája ezt nem tanítja: ott mindig van „egy kész bizonyítás”. A valóságban viszont az egészségügy tele van nem teljes információval.

Mit kellene máshogy mérni? (Benchmarkok, amik nem vernek át)

A tanulmány egyik legerősebb gondolata: értékelni kell a bizonyításfelfedezést és a bizonyítási folyamatot, nem csak a végső szöveget.

Saját tapasztalatom szerint (akár oktatási, akár egészségügyi pilotoknál) akkor javul látványosan a megbízhatóság, amikor a csapat bevezet olyan metrikákat, amik a „jó viselkedést” jutalmazzák, nem a „szép választ”.

Javasolt, gyakorlatias értékelési szempontok (AI + EdTech + egészségügy)

  1. Lépéshelyesség és koherencia: a köztes lépések logikusan következnek-e egymásból?
  2. Hibajavítási képesség: ha ellentmondásba fut, visszatalál-e?
  3. Bizonytalanság kezelése: jelzi-e, hol nem biztos, és mit kérne még?
  4. Alternatív utak: képes-e két ésszerű megoldási stratégiát adni?
  5. Magyarázat minősége: a magyarázat segít-e egy embernek dönteni/tanulni?

Egészségügyi alkalmazásban ezek konkrét minőségbiztosítási kérdések: mikor lehet a javaslatot emberi felülvizsgálat nélkül továbbengedni, és mikor kell megállítani?

Hogyan fordítsd ezt át EdTech-projektre vagy egészségügyi AI pilotra?

A tanulmány üzenete egy mondatban: az adat a termék része. Ha a tanítójeled rossz, a modell „ügyesen” rossz lesz.

1) Építs „folyamat-adatot”, ne csak „eredmény-adatot”

Gyakorlati ötletek:

  • Rögzíts tanári/mentori megoldási útvonalakat: miért választott lépést.
  • Gyűjts „zsákutca” példákat: tipikus félreértések és javításuk.
  • Készíts több szintű értékelést: részpontok köztes lépésekre.

2) Használj „ellenőrizhető részeket” a szövegben

A matematikai bizonyításnál természetes az ellenőrizhetőség. Egészségügyben és EdTech-ben ezt tudod imitálni:

  • strukturált javaslat (tünet → ok → teszt → döntés),
  • kényszerített hivatkozás belső tudásbázis-elemekre (nem külső link, hanem belső protokollpont),
  • „ha–akkor” szabályok explicit megjelenítése.

3) Alakíts ki olyan tréninget, ami jutalmazza a jó kérdezést

Egy copilotnak néha az a legjobb válasza, hogy:

„Ezt nem lehet biztonságosan eldönteni a hiányzó adat nélkül; a következő 2 információ csökkentené legjobban a bizonytalanságot.”

Ez a gondolkodás a motivált bizonyítás rokona: előbb tisztázunk, aztán bizonyítunk/döntünk.

Gyakori kérdések, amik felmerülnek (és a lényegi válaszok)

„Nem veszélyes, ha az AI ‘gondolatmenetet’ generál?”

A veszély nem a gondolatmenet, hanem az, ha nem ellenőrizhető. A jól kialakított folyamat-adat és értékelés pont azt segíti, hogy a köztes lépések auditálhatók legyenek.

„Miért nem elég a több adat?”

Mert a rossz jelből több csak még több rossz jel. A tanulmány lényege: a jel minősége és szerkezete a kritikus.

„Mikor lesz ebből haszon a klinikán?”

Amikor a copilotok értékelése elmozdul a „jó válasz” helyett a „jó döntési folyamat” felé. Ez nem 5 év múlva kezdődik: pilot-szinten már most is mérhető így.

Mit viszek magammal ebből 2025 végén?

A matematikai copilotokról szóló kutatás üzenete számomra egyértelmű: a megbízható egészségügyi AI alapja a megbízható érvelés, és a megbízható érvelést nem lehet csak végső válaszokból megtanulni. A „motivált bizonyítás” szemlélete ugyanúgy működik egy digitális matektanárnál, mint egy klinikai döntéstámogató rendszernél.

Ha te EdTech-ben fejlesztesz, ez azt jelenti: ne csak megoldáskulcsot adj a modellnek, hanem tanítási folyamatot. Ha egészségügyi AI-ban gondolkodsz: ne csak diagnózist kérj, hanem indokolt, ellenőrizhető döntési utat.

A kérdés, amit 2026 elején érdemes feltenni minden AI-projektnél: a rendszered jobban „vizsgázik”, vagy tényleg jobban „dolgozik”?

Ha szeretnél olyan AI pilotot (oktatási vagy egészségügyi) tervezni, ahol a mérőszámok nem vernek át, érdemes a dataset- és benchmark-tervezést már a nulladik héten komolyan venni – utólag sokkal drágább rendbe tenni.

🇭🇺 Matematikát tanító AI: alap a megbízható orvosi döntésekhez - Hungary | 3L3C