Hasznosság + diverzitás: gyorsabb finomhangolás SFT-ben

Mesterséges intelligencia az oktatásban és EdTech területen••By 3L3C

Hasznosság és diverzitás együtt: így gyorsítható az SFT finomhangolás, miközben javul a robusztusság EdTech-ben és az egészségügyi NLP-ben.

SFTLLM finomhangolásadatkurálásEdTechegészségügyi AIbiasgépi tanulás
Share:

Featured image for Hasznosság + diverzitás: gyorsabb finomhangolás SFT-ben

Hasznosság + diverzitás: gyorsabb finomhangolás SFT-ben

A legtöbb fine-tuning projekt ott csúszik el, ahol a legdrágább: a tanítóadat kiválasztásánál. Nem a modellarchitektúrán, nem a „melyik LLM-et válasszuk” vitán, hanem azon, hogy mit etetünk a modellel, és milyen sorrendben. És ez 2025 végén különösen fájdalmas, mert a számítási kapacitás ára nem lett varázsütésre olcsóbb, viszont a vállalati elvárás az lett: gyorsabban, olcsóbban, kevesebb kockázattal.

A friss kutatás (UDS – Utility-Diversity Sampling) arra tesz egy nagyon gyakorlatias javaslatot: ne csak a „hasznos” példákat válogasd be a supervised fine-tuning (SFT) batch-ekbe, hanem a „különböző” példákat is – ráadásul úgy, hogy ehhez ne kelljen külső referencia modell, validációs készlet, vagy extra backprop, ami még tovább drágítja a tréninget.

És bár a cikk gépi tanulás fókuszú, én kifejezetten szeretem oktatási (EdTech) és egészségügyi (clinical NLP) szemmel olvasni: ugyanaz a probléma jelenik meg mindkét területen. Ha a tanítóadat homogén, a modell is homogén lesz a hibáiban.

Miért nem elég a „legjobb” adatokra lőni?

Válasz elsőként: azért, mert a „legjobb” sokszor csak a „legkönnyebb” vagy a „leggyakoribb” – és ettől a modell szűk látókörűvé válik.

Az SFT során a legtöbb csapat ösztönösen így gondolkodik:

  • „Válasszuk ki a leginformatĂ­vabb pĂ©ldákat.”
  • „Ami nagy loss-t ad, azon tanul a modell.”
  • „A gyenge minĹ‘sĂ©gű pĂ©ldákat dobjuk ki.”

Ezzel önmagában nincs baj. A gond ott van, hogy a hasznosság (utility) mérése könnyen rááll a többségi mintákra.

Oktatásban: amikor a platform „ráneveli” a modellt az átlagtanulóra

EdTech környezetben tipikus helyzet: a rendszerben a legtöbb interakció a középszintű feladatok körül történik, ezért a modell ezekben lesz magabiztos. A ritkább tanulói utak (tanulási zavarokkal élők, tehetséggondozás, eltérő anyanyelv) alulreprezentáltak. Ha ilyenkor csak „utility” alapon válogatsz, a modell az „átlag tanulói viselkedést” fogja tökéletesíteni.

Egészségügyben: a bias amplifikáció kézzelfogható kockázat

Clinical NLP-ben (zárójelentés-összegzés, triázs-támogatás, betegút-ajánlás) ugyanez keményebb következményekkel jár:

  • ritka betegsĂ©gek
  • atipikus tĂĽnetkombináciĂłk
  • eltĂ©rĹ‘ demográfiai csoportok nyelvhasználata

Ha a kiválasztás csak hasznosságra optimalizál, könnyen felerősödnek a meglévő torzítások.

Online batch selection: mit jelent, és miért számít 2025-ben?

Válasz elsőként: az online batch selection azt jelenti, hogy tréning közben, folyamatosan döntesz arról, mely példák kerüljenek a következő batch-be – nem előre „kőbe vésve”.

A klasszikus út: előkészítesz egy tanítóhalmazt, és végigtrénelsz rajta. Ez drága, és sokszor felesleges. Az online kiválasztás logikája egyszerű:

  1. A modell megnéz egy csomó jelölt példát.
  2. Gyorsan pontozza őket (melyik „éri meg” tanulás szempontból).
  3. A következő batch-be a legjobbak kerülnek.

A kutatás szerint a meglévő népszerű módszerek gyakran három problémába futnak:

  • csak utility alapján válogatnak, diverzitás nĂ©lkĂĽl
  • kĂĽlsĹ‘ erĹ‘forrást igĂ©nyelnek (pl. referencia modell, validáciĂłs kĂ©szlet)
  • extra trĂ©ningidĹ‘t okoznak (pl. felesleges backprop lĂ©pĂ©sek)

Ez a hármas különösen érzékeny az egészségügyi és oktatási projektekben, ahol:

  • idĹ‘ablakok szorosak (szemeszterindulás, pilot az osztálytermekben; klinikai rendszerfrissĂ­tĂ©s)
  • költsĂ©gkeretek fixek
  • auditálhatĂłság Ă©s kockázatkezelĂ©s elvárt

UDS (Utility-Diversity Sampling): mi az ötlet lényege?

Válasz elsőként: az UDS két dolgot egyszerre akar optimalizálni: (1) a batch legyen hasznos a tanuláshoz, és (2) ne legyen önismétlő, hanem tartalmazzon változatos mintákat.

A módszer két szinten beszél diverzitásról:

1) Intra-sample diverzitás: „egy példán belüli változatosság”

Az UDS a modell logitjaiból (kimeneti pontszámokból) épít egy mátrixot, és ennek nukleáris normáját használja jelzőszámként. Intuíció:

  • ha a logitstruktĂşra „gazdagabb”, több irányba ad informáciĂłt a modellnek
  • Ă­gy a minta nem csak „nehezen megoldható”, hanem többfĂ©lekĂ©pp tanĂ­tĂł jellegű

Nem kell hozzá külön validációs készlet. Nem kell referencia modell. A jel a tréning közben rendelkezésre áll.

2) Inter-sample diverzitás: „a batch-en belüli különbözőség”

A második rész egy nagyon gyakorlatias trükk: az UDS alacsony dimenziós embeddingekkel hasonlítja össze az új jelölteket a korábban kiválasztott mintákkal, és egy könnyű memóriapuffert tart fenn a „történeti” példákból.

Ennek az ĂĽzenete a gyakorlatnak:

Nem elég, hogy egy példa jó. Az is számít, hogy ne legyen a batch tele ugyanazzal a mintával tízféle csomagolásban.

Mit jelent ez EdTech-ben? Jobb adaptív tanulás kevesebb tréningből

Válasz elsőként: az UDS-szerű szelekció az adaptív tanulási rendszerekben csökkenti az „átlagra tanítás” kockázatát, miközben gyorsítja a modellfrissítéseket.

Ha például egy LLM-et finomhangolsz:

  • automatikus feladatmagyarázatokhoz
  • dolgozat-jellegű szöveges válaszok Ă©rtĂ©kelĂ©sĂ©hez
  • tutor chathez

akkor az adatod tipikusan sok ismétlést tartalmaz (ugyanaz a hiba, ugyanaz a félreértés). Utility alapon ezeket a modellek imádják „túlgyakorolni”. A diverzitás-kényszer viszont segít abban, hogy bekerüljenek:

  • ritkább tĂ©vkĂ©pzetek
  • eltĂ©rĹ‘ szĂłkincsű tanulĂłi megfogalmazások
  • kĂĽlönbözĹ‘ feladattĂ­pusok (nyĂ­lt, feleletválasztĂłs, Ă©rvelĹ‘s)

Egy kézzelfogható példa: értékelő modell magyar nyelvű esszékre

Tegyük fel, hogy egy esszéértékelő modellt tanítasz. A legtöbb tanuló ugyanazokat a „biztonságos” fordulatokat használja, így a tanítóadat is egyhangú. Ha a batch szelekció figyeli a diverzitást, akkor nagyobb eséllyel kerülnek be:

  • kreatĂ­v, de nyelvtanilag bizonytalan megoldások
  • rövid, tömör válaszok a hosszĂş helyett
  • tájnyelvi vagy informális elemeket tartalmazĂł szövegek

Ettől a modell kevésbé lesz „stílusrendőr”, és jobban a tartalmi kritériumokra áll rá.

És miért releváns az egészségügyben, ha ez az EdTech-sorozat része?

Válasz elsőként: mert az oktatási AI és az egészségügyi AI ugyanarra a közös problémára fut rá: a minőség és a sokféleség egyszerre kell, különben a modell szépen teljesít átlagos esetekben, és gyengén a kritikus széleken.

Az egészségügyben a nyelvi adatok (anamnézis, ambuláns lap, triázs megjegyzések) rendkívül heterogének. Ráadásul:

  • intĂ©zmĂ©nyenkĂ©nt eltĂ©rĹ‘ a dokumentáciĂłs stĂ­lus
  • orvosonkĂ©nt eltĂ©rĹ‘ a rövidĂ­tĂ©srendszer
  • betegcsoportonkĂ©nt eltĂ©rĹ‘ a panaszleĂ­rás

Egy UDS-szerű szelekció kétféleképp segít:

  1. Hatékonyabb finomhangolás: kevesebb példából is lehet erősebb modellt építeni, ami gyorsabb iterációkat ad (pilot → visszajelzés → új finomhangolás).
  2. Jobb robusztusság: a diverz minták miatt a modell kevésbé esik szét, amikor „furcsa” megfogalmazást vagy ritka klinikai kombinációt kap.

Ha neked EdTech terméked van, ez azért fontos, mert a tanulói szövegadatok hasonlóan „szabad formájúak”, mint a klinikai jegyzetek: tele vannak rövidítéssel, hibával, félbehagyott mondattal. A robusztusság ott is versenyelőny.

Gyakorlati ellenőrzőlista: hogyan gondolkodj utility + diverzitás alapon?

Válasz elsőként: a cél egy olyan tréningfolyamat, ahol minden batch „tanít” és közben nem ismétli túl önmagát.

Ha nem is vezeted be az UDS-t egy az egyben, az alábbi lépések nagyon gyorsan javítják a finomhangolási pipeline-t:

  1. Döntsd el, mi a „hasznosság” jele a te feladatodban

    • loss / perplexity alapĂş pontszám
    • bizonytalanság (pl. margin)
    • hibakategĂłria-alapĂş sĂşlyozás (EdTech-ben tipikus)
  2. Vezess be diverzitás-féket

    • embedding-távolság a batch-en belĂĽl
    • klaszterekbĹ‘l mintavĂ©telezĂ©s (ne csak a legnagyobb klaszterbĹ‘l)
  3. Tarts egy „memóriát” a közelmúlt batch-eiről

    • 1–5 ezer minta is elĂ©g lehet sok esetben
    • a cĂ©l: ne válaszd Ăşjra Ă©s Ăşjra ugyanazt a mintázatot
  4. Mérj két KPI-t külön

    • teljesĂ­tmĂ©ny (pl. feladatpontosság, rubrikás Ă©rtĂ©kelĂ©s egyezĂ©se)
    • lefedettsĂ©g (ritka esetek teljesĂ­tmĂ©nye, csoportonkĂ©nti bontás)
  5. Auditálhatóság: logold a szelekció okát

    • „miĂ©rt kerĂĽlt be a batch-be?”
    • egĂ©szsĂ©gĂĽgyben Ă©s oktatásban is aranyat Ă©r, amikor magyarázni kell egy döntĂ©st

Jó szelekció mellett a tréning nem csak gyorsabb lesz, hanem kiszámíthatóbb is.

Mit kérdeznek ilyenkor a csapatok? (rövid Q&A)

„Nem lesz rosszabb a modell, ha kihagyok adatot?”

Nem, ha a kihagyás okos. A cél nem az, hogy kevesebb adat, hanem hogy kevesebb felesleges ismétlés kerüljön be.

„A diverzitás nem rontja a konvergenciát?”

Ha túl agresszív, ronthat. A jó beállításnál a diverzitás nem szétszórja a tanulást, hanem megelőzi a túlillesztést és a bias felerősödését.

„Miért fontos, hogy ne kelljen külső validációs készlet?”

Sok éles rendszerben nincs gyorsan karbantartható, reprezentatív validációs készlet (különösen egészségügyi és magyar nyelvű domain esetén). Egy önmagában működő szelekciós jel ezért praktikus.

Hova illik ez a sorozatban?

A „Mesterséges intelligencia az oktatásban és EdTech területen” sorozatban sokat beszélünk személyre szabásról, tanulói teljesítmény elemzésről és digitális platformokról. Az UDS üzenete ehhez passzol: a személyre szabás nem csak termékfunkció, hanem adat- és tréningstratégia is. Ha ugyanazokat a mintákat tréneljük újra és újra, a személyre szabás valójában csak dísz.

Ha viszont a fine-tuning folyamat már a batch kiválasztás szintjén figyel a hasznosságra és a diverzitásra, akkor a modell nagyobb eséllyel fogja érteni a „szélső” tanulói helyzeteket is.

A kérdés, amit én 2026 elejére minden csapatnak feltennék: a tréninged tényleg a tanulóid/ felhasználóid sokféleségét tükrözi, vagy csak a leggyakoribb eseteket ismétli?