Mesterséges intelligencia az oktatásban és EdTech területen•2025. december 22.•By 3L3C

Hasznosság és diverzitás együtt: így gyorsítható az SFT finomhangolás, miközben javul a robusztusság EdTech-ben és az egészségügyi NLP-ben.

SFTLLM finomhangolásadatkurálásEdTechegészségügyi AIbiasgépi tanulás

Featured image for Hasznosság + diverzitás: gyorsabb finomhangolás SFT-ben

Hasznosság + diverzitás: gyorsabb finomhangolás SFT-ben

A legtöbb fine-tuning projekt ott csúszik el, ahol a legdrágább: a tanítóadat kiválasztásánál. Nem a modellarchitektúrán, nem a „melyik LLM-et válasszuk” vitán, hanem azon, hogy mit etetünk a modellel, és milyen sorrendben. És ez 2025 végén különösen fájdalmas, mert a számítási kapacitás ára nem lett varázsütésre olcsóbb, viszont a vállalati elvárás az lett: gyorsabban, olcsóbban, kevesebb kockázattal.

A friss kutatás (UDS – Utility-Diversity Sampling) arra tesz egy nagyon gyakorlatias javaslatot: ne csak a „hasznos” példákat válogasd be a supervised fine-tuning (SFT) batch-ekbe, hanem a „különböző” példákat is – ráadásul úgy, hogy ehhez ne kelljen külső referencia modell, validációs készlet, vagy extra backprop, ami még tovább drágítja a tréninget.

És bár a cikk gépi tanulás fókuszú, én kifejezetten szeretem oktatási (EdTech) és egészségügyi (clinical NLP) szemmel olvasni: ugyanaz a probléma jelenik meg mindkét területen. Ha a tanítóadat homogén, a modell is homogén lesz a hibáiban.

Miért nem elég a „legjobb” adatokra lőni?

Válasz elsőként: azért, mert a „legjobb” sokszor csak a „legkönnyebb” vagy a „leggyakoribb” – és ettől a modell szűk látókörűvé válik.

Az SFT során a legtöbb csapat ösztönösen így gondolkodik:

„Válasszuk ki a leginformatívabb példákat.”
„Ami nagy loss-t ad, azon tanul a modell.”
„A gyenge minőségű példákat dobjuk ki.”

Ezzel önmagában nincs baj. A gond ott van, hogy a hasznosság (utility) mérése könnyen rááll a többségi mintákra.

Oktatásban: amikor a platform „ráneveli” a modellt az átlagtanulóra

EdTech környezetben tipikus helyzet: a rendszerben a legtöbb interakció a középszintű feladatok körül történik, ezért a modell ezekben lesz magabiztos. A ritkább tanulói utak (tanulási zavarokkal élők, tehetséggondozás, eltérő anyanyelv) alulreprezentáltak. Ha ilyenkor csak „utility” alapon válogatsz, a modell az „átlag tanulói viselkedést” fogja tökéletesíteni.

Egészségügyben: a bias amplifikáció kézzelfogható kockázat

Clinical NLP-ben (zárójelentés-összegzés, triázs-támogatás, betegút-ajánlás) ugyanez keményebb következményekkel jár:

ritka betegségek
atipikus tünetkombinációk
eltérő demográfiai csoportok nyelvhasználata

Ha a kiválasztás csak hasznosságra optimalizál, könnyen felerősödnek a meglévő torzítások.

Online batch selection: mit jelent, és miért számít 2025-ben?

Válasz elsőként: az online batch selection azt jelenti, hogy tréning közben, folyamatosan döntesz arról, mely példák kerüljenek a következő batch-be – nem előre „kőbe vésve”.

A klasszikus út: előkészítesz egy tanítóhalmazt, és végigtrénelsz rajta. Ez drága, és sokszor felesleges. Az online kiválasztás logikája egyszerű:

A modell megnéz egy csomó jelölt példát.
Gyorsan pontozza őket (melyik „éri meg” tanulás szempontból).
A következő batch-be a legjobbak kerülnek.

A kutatás szerint a meglévő népszerű módszerek gyakran három problémába futnak:

csak utility alapján válogatnak, diverzitás nélkül
külső erőforrást igényelnek (pl. referencia modell, validációs készlet)
extra tréningidőt okoznak (pl. felesleges backprop lépések)

Ez a hármas különösen érzékeny az egészségügyi és oktatási projektekben, ahol:

időablakok szorosak (szemeszterindulás, pilot az osztálytermekben; klinikai rendszerfrissítés)
költségkeretek fixek
auditálhatóság és kockázatkezelés elvárt

UDS (Utility-Diversity Sampling): mi az ötlet lényege?

Válasz elsőként: az UDS két dolgot egyszerre akar optimalizálni: (1) a batch legyen hasznos a tanuláshoz, és (2) ne legyen önismétlő, hanem tartalmazzon változatos mintákat.

A módszer két szinten beszél diverzitásról:

1) Intra-sample diverzitás: „egy példán belüli változatosság”

Az UDS a modell logitjaiból (kimeneti pontszámokból) épít egy mátrixot, és ennek nukleáris normáját használja jelzőszámként. Intuíció:

ha a logitstruktúra „gazdagabb”, több irányba ad információt a modellnek
így a minta nem csak „nehezen megoldható”, hanem többféleképp tanító jellegű

Nem kell hozzá külön validációs készlet. Nem kell referencia modell. A jel a tréning közben rendelkezésre áll.

2) Inter-sample diverzitás: „a batch-en belüli különbözőség”

A második rész egy nagyon gyakorlatias trükk: az UDS alacsony dimenziós embeddingekkel hasonlítja össze az új jelölteket a korábban kiválasztott mintákkal, és egy könnyű memóriapuffert tart fenn a „történeti” példákból.

Ennek az üzenete a gyakorlatnak:

Nem elég, hogy egy példa jó. Az is számít, hogy ne legyen a batch tele ugyanazzal a mintával tízféle csomagolásban.

Mit jelent ez EdTech-ben? Jobb adaptív tanulás kevesebb tréningből

Válasz elsőként: az UDS-szerű szelekció az adaptív tanulási rendszerekben csökkenti az „átlagra tanítás” kockázatát, miközben gyorsítja a modellfrissítéseket.

Ha például egy LLM-et finomhangolsz:

automatikus feladatmagyarázatokhoz
dolgozat-jellegű szöveges válaszok értékeléséhez
tutor chathez

akkor az adatod tipikusan sok ismétlést tartalmaz (ugyanaz a hiba, ugyanaz a félreértés). Utility alapon ezeket a modellek imádják „túlgyakorolni”. A diverzitás-kényszer viszont segít abban, hogy bekerüljenek:

ritkább tévképzetek
eltérő szókincsű tanulói megfogalmazások
különböző feladattípusok (nyílt, feleletválasztós, érvelős)

Egy kézzelfogható példa: értékelő modell magyar nyelvű esszékre

Tegyük fel, hogy egy esszéértékelő modellt tanítasz. A legtöbb tanuló ugyanazokat a „biztonságos” fordulatokat használja, így a tanítóadat is egyhangú. Ha a batch szelekció figyeli a diverzitást, akkor nagyobb eséllyel kerülnek be:

kreatív, de nyelvtanilag bizonytalan megoldások
rövid, tömör válaszok a hosszú helyett
tájnyelvi vagy informális elemeket tartalmazó szövegek

Ettől a modell kevésbé lesz „stílusrendőr”, és jobban a tartalmi kritériumokra áll rá.

És miért releváns az egészségügyben, ha ez az EdTech-sorozat része?

Válasz elsőként: mert az oktatási AI és az egészségügyi AI ugyanarra a közös problémára fut rá: a minőség és a sokféleség egyszerre kell, különben a modell szépen teljesít átlagos esetekben, és gyengén a kritikus széleken.

Az egészségügyben a nyelvi adatok (anamnézis, ambuláns lap, triázs megjegyzések) rendkívül heterogének. Ráadásul:

intézményenként eltérő a dokumentációs stílus
orvosonként eltérő a rövidítésrendszer
betegcsoportonként eltérő a panaszleírás

Egy UDS-szerű szelekció kétféleképp segít:

Hatékonyabb finomhangolás: kevesebb példából is lehet erősebb modellt építeni, ami gyorsabb iterációkat ad (pilot → visszajelzés → új finomhangolás).
Jobb robusztusság: a diverz minták miatt a modell kevésbé esik szét, amikor „furcsa” megfogalmazást vagy ritka klinikai kombinációt kap.

Ha neked EdTech terméked van, ez azért fontos, mert a tanulói szövegadatok hasonlóan „szabad formájúak”, mint a klinikai jegyzetek: tele vannak rövidítéssel, hibával, félbehagyott mondattal. A robusztusság ott is versenyelőny.

Gyakorlati ellenőrzőlista: hogyan gondolkodj utility + diverzitás alapon?

Válasz elsőként: a cél egy olyan tréningfolyamat, ahol minden batch „tanít” és közben nem ismétli túl önmagát.

Ha nem is vezeted be az UDS-t egy az egyben, az alábbi lépések nagyon gyorsan javítják a finomhangolási pipeline-t:

Döntsd el, mi a „hasznosság” jele a te feladatodban
- loss / perplexity alapú pontszám
- bizonytalanság (pl. margin)
- hibakategória-alapú súlyozás (EdTech-ben tipikus)
Vezess be diverzitás-féket
- embedding-távolság a batch-en belül
- klaszterekből mintavételezés (ne csak a legnagyobb klaszterből)
Tarts egy „memóriát” a közelmúlt batch-eiről
- 1–5 ezer minta is elég lehet sok esetben
- a cél: ne válaszd újra és újra ugyanazt a mintázatot
Mérj két KPI-t külön
- teljesítmény (pl. feladatpontosság, rubrikás értékelés egyezése)
- lefedettség (ritka esetek teljesítménye, csoportonkénti bontás)
Auditálhatóság: logold a szelekció okát
- „miért került be a batch-be?”
- egészségügyben és oktatásban is aranyat ér, amikor magyarázni kell egy döntést

Jó szelekció mellett a tréning nem csak gyorsabb lesz, hanem kiszámíthatóbb is.

Mit kérdeznek ilyenkor a csapatok? (rövid Q&A)

„Nem lesz rosszabb a modell, ha kihagyok adatot?”

Nem, ha a kihagyás okos. A cél nem az, hogy kevesebb adat, hanem hogy kevesebb felesleges ismétlés kerüljön be.

„A diverzitás nem rontja a konvergenciát?”

Ha túl agresszív, ronthat. A jó beállításnál a diverzitás nem szétszórja a tanulást, hanem megelőzi a túlillesztést és a bias felerősödését.

„Miért fontos, hogy ne kelljen külső validációs készlet?”

Sok éles rendszerben nincs gyorsan karbantartható, reprezentatív validációs készlet (különösen egészségügyi és magyar nyelvű domain esetén). Egy önmagában működő szelekciós jel ezért praktikus.

Hova illik ez a sorozatban?

A „Mesterséges intelligencia az oktatásban és EdTech területen” sorozatban sokat beszélünk személyre szabásról, tanulói teljesítmény elemzésről és digitális platformokról. Az UDS üzenete ehhez passzol: a személyre szabás nem csak termékfunkció, hanem adat- és tréningstratégia is. Ha ugyanazokat a mintákat tréneljük újra és újra, a személyre szabás valójában csak dísz.

Ha viszont a fine-tuning folyamat már a batch kiválasztás szintjén figyel a hasznosságra és a diverzitásra, akkor a modell nagyobb eséllyel fogja érteni a „szélső” tanulói helyzeteket is.

A kérdés, amit én 2026 elejére minden csapatnak feltennék: a tréninged tényleg a tanulóid/ felhasználóid sokféleségét tükrözi, vagy csak a leggyakoribb eseteket ismétli?