Diverzitás-tudatos online batch szelekcióval gyorsabb SFT és stabilabb LLM-ek. Egészségügyben és e-kereskedelemben is kevesebb költség, kevesebb bias.

Okosabb SFT: gyorsabb, igazságosabb LLM-ek az egészségügyben
A legtöbb csapat mĂ©g mindig tĂşl sok adatot etet a modelljĂ©vel – aztán meglepĹ‘dik, hogy a finomhangolás drága, lassĂş, Ă©s nĂ©ha mĂ©g ront is a viselkedĂ©sen. A valĂłság: nem az a kĂ©rdĂ©s, van-e elĂ©g trĂ©ningadat, hanem az, hogy melyik minta Ă©ri meg a számĂtási idĹ‘t.
Pont ezt a problĂ©mát cĂ©lozza a friss kutatás a Utility-Diversity Sampling (UDS) keretrendszerrel: online batch szelekciĂłt javasol felĂĽgyelt finomhangoláshoz (SFT), ahol a modell trĂ©ning közben dönt arrĂłl, melyik mintákat Ă©rdemes megtartani. Ami nekem kĂĽlönösen fontos benne: a mĂłdszer nem csak „hasznos” pĂ©ldákat keres, hanem a diverzitást is beĂ©pĂti, Ă©s mindezt Ăşgy, hogy nem kĂ©r kĂĽlsĹ‘ validáciĂłs kĂ©szletet vagy referenciamodellt.
Ez a tĂ©ma elsĹ‘re „LLM-kĂ©pzĂ©si belĂĽgynek” tűnhet, de a kampányunk szempontjábĂłl nagyon is gyakorlati: ha egĂ©szsĂ©gĂĽgyi chatbotot, triázs-asszisztenst, radiolĂłgiai leletezĹ‘ segĂ©det vagy telemedicinás ĂĽgyfĂ©lkommunikáciĂłt támogatĂł modellt finomhangolsz, a gyorsabb Ă©s diverzitás-tudatos tanĂtás közvetlenĂĽl hat a pontosságra, az elfogultságra Ă©s a költsĂ©gre. És mivel a sorozatunk a kiskereskedelem Ă©s e-kereskedelem AI tĂ©mára Ă©pĂĽl, a tanulság ugyanaz: ajánlĂłrendszereknĂ©l, kereslet-elĹ‘rejelzĂ©snĂ©l, ĂĽgyfĂ©lszolgálati LLM-eknĂ©l is az nyer, aki okosabban válogatja a tanĂtĂładatot.
Miért fáj ennyire a teljes adathalmazon végzett SFT?
Válasz röviden: mert a teljes SFT sokszor felesleges számĂtás, Ă©s közben növelheti az overfittinget Ă©s a bias erĹ‘södĂ©sĂ©t.
A felĂĽgyelt finomhangolás (SFT) tipikus forgatĂłkönyve: van egy nagy, vegyes minĹ‘sĂ©gű utasĂtás–válasz (instruction) adatbázis, Ă©s minden mintán vĂ©gigmĂ©sz, epoch-rĂłl epoch-ra. Ez a „biztos, ami biztos” megközelĂtĂ©s három helyen szokott elcsĂşszni:
- Költség és idő: ha a célmodell LLM, az SFT könnyen elviszi a budgetet. Decemberben (év végi hajrában) ez különösen fáj, amikor a csapatok Q1-es roadmapre készülnek, és gyorsan kellene iterálni.
- MinĹ‘sĂ©gromlás: a zajos, redundáns pĂ©ldák kĂ©pesek elmosni a jĂł minták tanĂtĂłhatását.
- Elfogultság felerĹ‘sĂtĂ©se: ha egy alcsoportra (pl. ritkább betegpopuláciĂł, vagy e-kereskedelemben kisebb vásárlĂłi szegmens) kevĂ©s, de kritikus adat jut, a modell könnyen „átlagol”, Ă©s rosszabbul teljesĂt ott, ahol a legnagyobb a kockázat.
Az egészségügyben ez nem akadémikus kérdés. Egy telemedicinás asszisztensnél a ritka tünetkombinációk, a különböző életkorok, nyelvhasználat, komorbiditások pont a diverzitás tengelyén jelentenek értéket.
Online batch szelekció: nem több adat kell, hanem jobb adat
Válasz röviden: online batch szelekciónál a modell tréning közben pontozza a mintákat, és csak a „megérős” példákkal tanul tovább.
A klasszikus adatkurálás gyakran offline törtĂ©nik: elĹ‘re kiválogatod a top X%-ot, Ă©s azon trĂ©ningelsz. Az online megközelĂtĂ©s ennĂ©l rugalmasabb: ahogy a modell tanul, változik, hogy melyik minta mennyire informatĂv.
A cikk szerint a népszerű online módszerek tipikus gondjai:
- Csak hasznosságra (utility) figyelnek, diverzitás nélkül → sok „hasonlóan könnyű” minta felülreprezentált lesz.
- Külső erőforrást igényelnek (referenciamodell, validációs készlet) → egészségügyi projektnél ez gyakran adatvédelmi, hozzáférési vagy governance falakba ütközik.
- Plusz tréningidőt adnak a teljes adathalmazhoz képest → vagyis pont a költségproblémát rontják.
Mi számĂt „hasznos” mintának egĂ©szsĂ©gĂĽgyi Ă©s retail kontextusban?
A „utility” a gyakorlatban többféle dolgot jelenthet:
- Nagy veszteségű (loss) minták: ahol a modell téved, ott tanul a legtöbbet – de csak akkor, ha nem outlier zaj.
- Döntési határon lévő példák: triázs vagy diagnosztikai szövegértés esetén tipikusan ilyenek a hasonló tünetek.
- Új, eddig nem látott megfogalmazások: telemedicinában a laikus nyelv gyakran eltér a szakmai terminológiától.
Retailben ugyanez: a ritka kosár-összetételek, új termékek, szezonális minták (karácsonyi csúcs utáni visszáru, januári leárazás) különösen értékesek.
Mit hoz Ăşjat az UDS (Utility-Diversity Sampling)?
Válasz röviden: az UDS egyszerre méri a hasznosságot és a diverzitást, ráadásul úgy, hogy nem támaszkodik külső modellekre, és nem tesz fölösleges visszaterjesztést (backprop) a szelekció miatt.
A javasolt keretrendszer két diverzitás-szintet kezel:
- Mintán belüli diverzitás (intra-sample): mennyire „gazdag” információt hordoz egy adott mintához tartozó modellkimenet.
- Minták közötti diverzitás (inter-sample): mennyire hasonlĂt a jelölt minta a már kiválasztott / korábban látott mintákhoz.
A cikk kulcsötlete, hogy az intra-sample utility+diverzitást a modell logit-mátrixának nukleáris normájával ragadja meg. Magyarul: nem csak azt nézi, hogy a modell mennyire „bizonytalan”, hanem azt is, hogy a kimeneti eloszlások mennyire többdimenziós, változatos struktúrát mutatnak.
Az inter-sample diverzitást pedig egy hatĂ©kony, alacsony dimenziĂłs embedding-összehasonlĂtással becsli, egy könnyű memĂłriapuffer segĂtsĂ©gĂ©vel, amiben törtĂ©neti minták reprezentáciĂłi vannak.
Egy mondatban: az UDS nem engedi, hogy a tréningbatch tele legyen „ugyanolyan” példákkal, még akkor sem, ha mindegyik külön-külön hasznosnak tűnik.
Miért jó, hogy nincs szükség validációs készletre vagy referenciamodellre?
Egészségügyben a validációs készlet fenntartása sokszor nem technikai, hanem szervezeti kérdés:
- külön jogosultságok,
- anonimizálási pipeline-ok,
- audit,
- adatminőség és annotációs követelmények.
Ha a szelekciĂł mĂłdszere ezek nĂ©lkĂĽl is működik, az rövidebb bevezetĂ©si idĹ‘t Ă©s kisebb kockázatot jelent. Retail/e-kereskedelemben pedig egyszerűen gyorsabb iteráciĂł: kampányok, kreatĂvok, termĂ©kfeed változik, a modellnek követnie kell.
Mit jelent ez a gyakorlatban diagnosztikában és telemedicinában?
Válasz röviden: az UDS-szerű szelekcióval gyorsabban lehet finomhangolni, miközben nő az esélye annak, hogy a modell ritkább esetekben is stabil marad.
KĂ©pzeld el, hogy van egy LLM-alapĂş triázs asszisztensed, amit magyar nyelvű betegpanaszokra hangolsz. A tanĂtĂładatban rengeteg ismĂ©tlĹ‘dĂ©s van: „fáj a torkom”, „köhögök”, „hĹ‘emelkedĂ©sem van”. Ezek fontosak, de hamar redundánssá válnak.
A kritikus, ritkább minták viszont ilyenek:
- atĂpusos tĂĽnetleĂrások (pl. „furcsa szorĂtás a mellkasomban, de nem fáj”),
- idős vagy gyermek betegek eltérő kommunikációja,
- több betegség egyidejű fennállása,
- gyĂłgyszer-interakciĂłk emlĂtĂ©se,
- sürgősségi „red flag” mintázatok.
A diverzitás-tudatos batch szelekció nagyobb eséllyel tartja bent ezeket a mintákat a tréning fókuszában, miközben nem költöd el a teljes budgetet a sokadik, szinte azonos „megfázás” párbeszédre.
Párhuzam az e-kereskedelemmel: ritka kosarak, ritka hibák
Ugyanez a logika működik egy e-kereskedelmi ügyfélszolgálati LLM-nél:
- A gyakori kĂ©rdĂ©sek (szállĂtási idĹ‘, fizetĂ©s) gyorsan redundánsak.
- Az igazán drága esetek a ritkák: számlázási kivĂ©tel, több csomag egy rendelĂ©s, vitás chargeback, sĂ©rĂĽlt áru bizonyĂtás, jogi hangvĂ©tel.
Ha a trĂ©ningbatch diverz marad, a modell kevĂ©sbĂ© fog „lefagyni” a szĂ©lsĹ‘ eseteknĂ©l. Ez közvetlenĂĽl csökkenti az emberi eszkaláciĂłt Ă©s javĂtja az ĂĽgyfĂ©lĂ©lmĂ©nyt.
Hogyan vezetnéd be: egy praktikus, kockázatcsökkentő terv
Válasz röviden: először mérj alapállapotot, majd fokozatosan csökkentsd a data budgetet, és közben figyeld a minőség–költség görbét és a fairness metrikákat.
Ha LLM finomhangolást vĂ©gzel egĂ©szsĂ©gĂĽgyi vagy retail környezetben, Ă©n Ăgy állnĂ©k neki:
- Baseline SFT kis költsĂ©gvetĂ©ssel: futtass rövid SFT-t a teljes adaton (kevĂ©s lĂ©pĂ©s/epoch), hogy legyen viszonyĂtás.
- Adatbudget kĂsĂ©rletek: prĂłbáld ki a 30% / 50% / 70% kiválasztott mintát online szelekciĂłval.
- Diverzitás-ellenőrzés emberrel: nézz rá néhány batchre: nem ugyanazt a mintát forgatja-e újra és újra a rendszer.
- Célzott metrikák: ne csak átlagos pontosságot mérj.
- EgĂ©szsĂ©gĂĽgyben: alcsoport teljesĂtmĂ©ny (Ă©letkor, nem, komorbiditás, dialektus/nyelvhasználat), hallucináciĂłs arány, veszĂ©lyes tanács detektálása.
- Retailben: intent-felismerés ritka intentekre, CSAT proxy, eszkalációs ráta.
- Governance: rögzĂtsd a szelekciĂł paramĂ©tereit (mint egy „adat-receptet”), hogy auditálhatĂł legyen, miĂ©rt azt tanulta a modell.
JĂł ökölszabály: ha a kiválasztott adatmennyisĂ©g csökken, de a ritka esetekben nem romlik a teljesĂtmĂ©ny, akkor tĂ©nyleg nyertĂ©l.
Gyakori kérdések (amit a csapatok tényleg feltesznek)
„Nem veszĂtĂĽnk Ăgy fontos adatot?”
Ha a szelekció csak utility-alapú, akkor igen, könnyen. A diverzitás explicit kezelése pont azért fontos, mert a „fontos” adat gyakran ritka és nem látványosan nagy loss-ú.
„Mitől lesz ez gyorsabb, ha közben pontozgatunk?”
Az UDS egyik ĂgĂ©rete, hogy a szelekciĂłt Ăşgy tervezi, hogy ne hozzon extra backprop-ot, Ă©s ne igĂ©nyeljen kĂĽlsĹ‘ validáciĂłs futásokat. A cĂ©l az, hogy a megtakarĂtott trĂ©ninglĂ©pĂ©sek többet hozzanak, mint amennyibe a pontozás kerĂĽl.
„Hogyan kapcsolódik ez a kiskereskedelmi AI sorozatunkhoz?”
Ugyanazzal a problĂ©mával kĂĽzdĂĽnk: rengeteg adat, limitált compute, gyors kampányciklusok. A jĂł adatválogatás a kereslet-elĹ‘rejelzĂ©stĹ‘l az ajánlĂłrendszerekig mindenhol gyorsĂtja az iteráciĂłt – Ă©s ugyanez igaz az egĂ©szsĂ©gĂĽgyi LLM-ekre is.
Merre tovább: gyorsabb tréning, stabilabb modellek, kevesebb vakfolt
Az UDS ĂĽzenete számomra egyszerű: a batch összeállĂtása nem adminisztratĂv rĂ©szlet, hanem modellminĹ‘sĂ©gi döntĂ©s. Ha a finomhangolás során tudatosan kezeled a hasznosságot Ă©s a diverzitást, akkor jobb esĂ©llyel kapsz olyan modellt, ami nem csak a „gyakori” esetekben ĂĽgyes, hanem a ritkább, kockázatosabb helyzetekben is kiszámĂthatĂł.
Ha egĂ©szsĂ©gĂĽgyi AI rendszert Ă©pĂtesz (diagnosztikai szövegĂ©rtĂ©s, telemedicina, dokumentáciĂł-összefoglalás), vagy e-kereskedelmi LLM-et (ĂĽgyfĂ©lszolgálat, termĂ©kleĂrás, keresĹ‘), a következĹ‘ lĂ©pĂ©s nagyon konkrĂ©t: teszteld a data budget csökkentĂ©sĂ©t diverzitás-tudatos online szelekciĂłval, Ă©s mĂ©rd meg, hol van a minĹ‘sĂ©g–költsĂ©g optimum.
A kĂ©rdĂ©s, ami 2026 elejĂ©n egyre több csapatnál elĹ‘jön majd: a következĹ‘ finomhangolásnál tĂ©nyleg mindent meg akarsz tanĂtani a modellnek – vagy csak azt, ami számĂt?