Diverzitás-tudatos online batch szelekcióval gyorsabb SFT és stabilabb LLM-ek. Egészségügyben és e-kereskedelemben is kevesebb költség, kevesebb bias.

Okosabb SFT: gyorsabb, igazságosabb LLM-ek az egészségügyben
A legtöbb csapat még mindig túl sok adatot etet a modelljével – aztán meglepődik, hogy a finomhangolás drága, lassú, és néha még ront is a viselkedésen. A valóság: nem az a kérdés, van-e elég tréningadat, hanem az, hogy melyik minta éri meg a számítási időt.
Pont ezt a problémát célozza a friss kutatás a Utility-Diversity Sampling (UDS) keretrendszerrel: online batch szelekciót javasol felügyelt finomhangoláshoz (SFT), ahol a modell tréning közben dönt arról, melyik mintákat érdemes megtartani. Ami nekem különösen fontos benne: a módszer nem csak „hasznos” példákat keres, hanem a diverzitást is beépíti, és mindezt úgy, hogy nem kér külső validációs készletet vagy referenciamodellt.
Ez a téma elsőre „LLM-képzési belügynek” tűnhet, de a kampányunk szempontjából nagyon is gyakorlati: ha egészségügyi chatbotot, triázs-asszisztenst, radiológiai leletező segédet vagy telemedicinás ügyfélkommunikációt támogató modellt finomhangolsz, a gyorsabb és diverzitás-tudatos tanítás közvetlenül hat a pontosságra, az elfogultságra és a költségre. És mivel a sorozatunk a kiskereskedelem és e-kereskedelem AI témára épül, a tanulság ugyanaz: ajánlórendszereknél, kereslet-előrejelzésnél, ügyfélszolgálati LLM-eknél is az nyer, aki okosabban válogatja a tanítóadatot.
Miért fáj ennyire a teljes adathalmazon végzett SFT?
Válasz röviden: mert a teljes SFT sokszor felesleges számítás, és közben növelheti az overfittinget és a bias erősödését.
A felügyelt finomhangolás (SFT) tipikus forgatókönyve: van egy nagy, vegyes minőségű utasítás–válasz (instruction) adatbázis, és minden mintán végigmész, epoch-ról epoch-ra. Ez a „biztos, ami biztos” megközelítés három helyen szokott elcsúszni:
- Költség és idő: ha a célmodell LLM, az SFT könnyen elviszi a budgetet. Decemberben (év végi hajrában) ez különösen fáj, amikor a csapatok Q1-es roadmapre készülnek, és gyorsan kellene iterálni.
- Minőségromlás: a zajos, redundáns példák képesek elmosni a jó minták tanítóhatását.
- Elfogultság felerősítése: ha egy alcsoportra (pl. ritkább betegpopuláció, vagy e-kereskedelemben kisebb vásárlói szegmens) kevés, de kritikus adat jut, a modell könnyen „átlagol”, és rosszabbul teljesít ott, ahol a legnagyobb a kockázat.
Az egészségügyben ez nem akadémikus kérdés. Egy telemedicinás asszisztensnél a ritka tünetkombinációk, a különböző életkorok, nyelvhasználat, komorbiditások pont a diverzitás tengelyén jelentenek értéket.
Online batch szelekció: nem több adat kell, hanem jobb adat
Válasz röviden: online batch szelekciónál a modell tréning közben pontozza a mintákat, és csak a „megérős” példákkal tanul tovább.
A klasszikus adatkurálás gyakran offline történik: előre kiválogatod a top X%-ot, és azon tréningelsz. Az online megközelítés ennél rugalmasabb: ahogy a modell tanul, változik, hogy melyik minta mennyire informatív.
A cikk szerint a népszerű online módszerek tipikus gondjai:
- Csak hasznosságra (utility) figyelnek, diverzitás nélkül → sok „hasonlóan könnyű” minta felülreprezentált lesz.
- Külső erőforrást igényelnek (referenciamodell, validációs készlet) → egészségügyi projektnél ez gyakran adatvédelmi, hozzáférési vagy governance falakba ütközik.
- Plusz tréningidőt adnak a teljes adathalmazhoz képest → vagyis pont a költségproblémát rontják.
Mi számít „hasznos” mintának egészségügyi és retail kontextusban?
A „utility” a gyakorlatban többféle dolgot jelenthet:
- Nagy veszteségű (loss) minták: ahol a modell téved, ott tanul a legtöbbet – de csak akkor, ha nem outlier zaj.
- Döntési határon lévő példák: triázs vagy diagnosztikai szövegértés esetén tipikusan ilyenek a hasonló tünetek.
- Új, eddig nem látott megfogalmazások: telemedicinában a laikus nyelv gyakran eltér a szakmai terminológiától.
Retailben ugyanez: a ritka kosár-összetételek, új termékek, szezonális minták (karácsonyi csúcs utáni visszáru, januári leárazás) különösen értékesek.
Mit hoz újat az UDS (Utility-Diversity Sampling)?
Válasz röviden: az UDS egyszerre méri a hasznosságot és a diverzitást, ráadásul úgy, hogy nem támaszkodik külső modellekre, és nem tesz fölösleges visszaterjesztést (backprop) a szelekció miatt.
A javasolt keretrendszer két diverzitás-szintet kezel:
- Mintán belüli diverzitás (intra-sample): mennyire „gazdag” információt hordoz egy adott mintához tartozó modellkimenet.
- Minták közötti diverzitás (inter-sample): mennyire hasonlít a jelölt minta a már kiválasztott / korábban látott mintákhoz.
A cikk kulcsötlete, hogy az intra-sample utility+diverzitást a modell logit-mátrixának nukleáris normájával ragadja meg. Magyarul: nem csak azt nézi, hogy a modell mennyire „bizonytalan”, hanem azt is, hogy a kimeneti eloszlások mennyire többdimenziós, változatos struktúrát mutatnak.
Az inter-sample diverzitást pedig egy hatékony, alacsony dimenziós embedding-összehasonlítással becsli, egy könnyű memóriapuffer segítségével, amiben történeti minták reprezentációi vannak.
Egy mondatban: az UDS nem engedi, hogy a tréningbatch tele legyen „ugyanolyan” példákkal, még akkor sem, ha mindegyik külön-külön hasznosnak tűnik.
Miért jó, hogy nincs szükség validációs készletre vagy referenciamodellre?
Egészségügyben a validációs készlet fenntartása sokszor nem technikai, hanem szervezeti kérdés:
- külön jogosultságok,
- anonimizálási pipeline-ok,
- audit,
- adatminőség és annotációs követelmények.
Ha a szelekció módszere ezek nélkül is működik, az rövidebb bevezetési időt és kisebb kockázatot jelent. Retail/e-kereskedelemben pedig egyszerűen gyorsabb iteráció: kampányok, kreatívok, termékfeed változik, a modellnek követnie kell.
Mit jelent ez a gyakorlatban diagnosztikában és telemedicinában?
Válasz röviden: az UDS-szerű szelekcióval gyorsabban lehet finomhangolni, miközben nő az esélye annak, hogy a modell ritkább esetekben is stabil marad.
Képzeld el, hogy van egy LLM-alapú triázs asszisztensed, amit magyar nyelvű betegpanaszokra hangolsz. A tanítóadatban rengeteg ismétlődés van: „fáj a torkom”, „köhögök”, „hőemelkedésem van”. Ezek fontosak, de hamar redundánssá válnak.
A kritikus, ritkább minták viszont ilyenek:
- atípusos tünetleírások (pl. „furcsa szorítás a mellkasomban, de nem fáj”),
- idős vagy gyermek betegek eltérő kommunikációja,
- több betegség egyidejű fennállása,
- gyógyszer-interakciók említése,
- sürgősségi „red flag” mintázatok.
A diverzitás-tudatos batch szelekció nagyobb eséllyel tartja bent ezeket a mintákat a tréning fókuszában, miközben nem költöd el a teljes budgetet a sokadik, szinte azonos „megfázás” párbeszédre.
Párhuzam az e-kereskedelemmel: ritka kosarak, ritka hibák
Ugyanez a logika működik egy e-kereskedelmi ügyfélszolgálati LLM-nél:
- A gyakori kérdések (szállítási idő, fizetés) gyorsan redundánsak.
- Az igazán drága esetek a ritkák: számlázási kivétel, több csomag egy rendelés, vitás chargeback, sérült áru bizonyítás, jogi hangvétel.
Ha a tréningbatch diverz marad, a modell kevésbé fog „lefagyni” a szélső eseteknél. Ez közvetlenül csökkenti az emberi eszkalációt és javítja az ügyfélélményt.
Hogyan vezetnéd be: egy praktikus, kockázatcsökkentő terv
Válasz röviden: először mérj alapállapotot, majd fokozatosan csökkentsd a data budgetet, és közben figyeld a minőség–költség görbét és a fairness metrikákat.
Ha LLM finomhangolást végzel egészségügyi vagy retail környezetben, én így állnék neki:
- Baseline SFT kis költségvetéssel: futtass rövid SFT-t a teljes adaton (kevés lépés/epoch), hogy legyen viszonyítás.
- Adatbudget kísérletek: próbáld ki a 30% / 50% / 70% kiválasztott mintát online szelekcióval.
- Diverzitás-ellenőrzés emberrel: nézz rá néhány batchre: nem ugyanazt a mintát forgatja-e újra és újra a rendszer.
- Célzott metrikák: ne csak átlagos pontosságot mérj.
- Egészségügyben: alcsoport teljesítmény (életkor, nem, komorbiditás, dialektus/nyelvhasználat), hallucinációs arány, veszélyes tanács detektálása.
- Retailben: intent-felismerés ritka intentekre, CSAT proxy, eszkalációs ráta.
- Governance: rögzítsd a szelekció paramétereit (mint egy „adat-receptet”), hogy auditálható legyen, miért azt tanulta a modell.
Jó ökölszabály: ha a kiválasztott adatmennyiség csökken, de a ritka esetekben nem romlik a teljesítmény, akkor tényleg nyertél.
Gyakori kérdések (amit a csapatok tényleg feltesznek)
„Nem veszítünk így fontos adatot?”
Ha a szelekció csak utility-alapú, akkor igen, könnyen. A diverzitás explicit kezelése pont azért fontos, mert a „fontos” adat gyakran ritka és nem látványosan nagy loss-ú.
„Mitől lesz ez gyorsabb, ha közben pontozgatunk?”
Az UDS egyik ígérete, hogy a szelekciót úgy tervezi, hogy ne hozzon extra backprop-ot, és ne igényeljen külső validációs futásokat. A cél az, hogy a megtakarított tréninglépések többet hozzanak, mint amennyibe a pontozás kerül.
„Hogyan kapcsolódik ez a kiskereskedelmi AI sorozatunkhoz?”
Ugyanazzal a problémával küzdünk: rengeteg adat, limitált compute, gyors kampányciklusok. A jó adatválogatás a kereslet-előrejelzéstől az ajánlórendszerekig mindenhol gyorsítja az iterációt – és ugyanez igaz az egészségügyi LLM-ekre is.
Merre tovább: gyorsabb tréning, stabilabb modellek, kevesebb vakfolt
Az UDS üzenete számomra egyszerű: a batch összeállítása nem adminisztratív részlet, hanem modellminőségi döntés. Ha a finomhangolás során tudatosan kezeled a hasznosságot és a diverzitást, akkor jobb eséllyel kapsz olyan modellt, ami nem csak a „gyakori” esetekben ügyes, hanem a ritkább, kockázatosabb helyzetekben is kiszámítható.
Ha egészségügyi AI rendszert építesz (diagnosztikai szövegértés, telemedicina, dokumentáció-összefoglalás), vagy e-kereskedelmi LLM-et (ügyfélszolgálat, termékleírás, kereső), a következő lépés nagyon konkrét: teszteld a data budget csökkentését diverzitás-tudatos online szelekcióval, és mérd meg, hol van a minőség–költség optimum.
A kérdés, ami 2026 elején egyre több csapatnál előjön majd: a következő finomhangolásnál tényleg mindent meg akarsz tanítani a modellnek – vagy csak azt, ami számít?