Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben•2025. december 22.•By 3L3C

Diverzitás-tudatos online batch szelekcióval gyorsabb SFT és stabilabb LLM-ek. Egészségügyben és e-kereskedelemben is kevesebb költség, kevesebb bias.

LLM tréningadatkurálásdiverzitásegészségügyi AItelemedicinae-kereskedelem AI

Featured image for Okosabb SFT: gyorsabb, igazságosabb LLM-ek az egészségügyben

Okosabb SFT: gyorsabb, igazságosabb LLM-ek az egészségügyben

A legtöbb csapat még mindig túl sok adatot etet a modelljével – aztán meglepődik, hogy a finomhangolás drága, lassú, és néha még ront is a viselkedésen. A valóság: nem az a kérdés, van-e elég tréningadat, hanem az, hogy melyik minta éri meg a számítási időt.

Pont ezt a problémát célozza a friss kutatás a Utility-Diversity Sampling (UDS) keretrendszerrel: online batch szelekciót javasol felügyelt finomhangoláshoz (SFT), ahol a modell tréning közben dönt arról, melyik mintákat érdemes megtartani. Ami nekem különösen fontos benne: a módszer nem csak „hasznos” példákat keres, hanem a diverzitást is beépíti, és mindezt úgy, hogy nem kér külső validációs készletet vagy referenciamodellt.

Ez a téma elsőre „LLM-képzési belügynek” tűnhet, de a kampányunk szempontjából nagyon is gyakorlati: ha egészségügyi chatbotot, triázs-asszisztenst, radiológiai leletező segédet vagy telemedicinás ügyfélkommunikációt támogató modellt finomhangolsz, a gyorsabb és diverzitás-tudatos tanítás közvetlenül hat a pontosságra, az elfogultságra és a költségre. És mivel a sorozatunk a kiskereskedelem és e-kereskedelem AI témára épül, a tanulság ugyanaz: ajánlórendszereknél, kereslet-előrejelzésnél, ügyfélszolgálati LLM-eknél is az nyer, aki okosabban válogatja a tanítóadatot.

Miért fáj ennyire a teljes adathalmazon végzett SFT?

Válasz röviden: mert a teljes SFT sokszor felesleges számítás, és közben növelheti az overfittinget és a bias erősödését.

A felügyelt finomhangolás (SFT) tipikus forgatókönyve: van egy nagy, vegyes minőségű utasítás–válasz (instruction) adatbázis, és minden mintán végigmész, epoch-ról epoch-ra. Ez a „biztos, ami biztos” megközelítés három helyen szokott elcsúszni:

Költség és idő: ha a célmodell LLM, az SFT könnyen elviszi a budgetet. Decemberben (év végi hajrában) ez különösen fáj, amikor a csapatok Q1-es roadmapre készülnek, és gyorsan kellene iterálni.
Minőségromlás: a zajos, redundáns példák képesek elmosni a jó minták tanítóhatását.
Elfogultság felerősítése: ha egy alcsoportra (pl. ritkább betegpopuláció, vagy e-kereskedelemben kisebb vásárlói szegmens) kevés, de kritikus adat jut, a modell könnyen „átlagol”, és rosszabbul teljesít ott, ahol a legnagyobb a kockázat.

Az egészségügyben ez nem akadémikus kérdés. Egy telemedicinás asszisztensnél a ritka tünetkombinációk, a különböző életkorok, nyelvhasználat, komorbiditások pont a diverzitás tengelyén jelentenek értéket.

Online batch szelekció: nem több adat kell, hanem jobb adat

Válasz röviden: online batch szelekciónál a modell tréning közben pontozza a mintákat, és csak a „megérős” példákkal tanul tovább.

A klasszikus adatkurálás gyakran offline történik: előre kiválogatod a top X%-ot, és azon tréningelsz. Az online megközelítés ennél rugalmasabb: ahogy a modell tanul, változik, hogy melyik minta mennyire informatív.

A cikk szerint a népszerű online módszerek tipikus gondjai:

Csak hasznosságra (utility) figyelnek, diverzitás nélkül → sok „hasonlóan könnyű” minta felülreprezentált lesz.
Külső erőforrást igényelnek (referenciamodell, validációs készlet) → egészségügyi projektnél ez gyakran adatvédelmi, hozzáférési vagy governance falakba ütközik.
Plusz tréningidőt adnak a teljes adathalmazhoz képest → vagyis pont a költségproblémát rontják.

Mi számít „hasznos” mintának egészségügyi és retail kontextusban?

A „utility” a gyakorlatban többféle dolgot jelenthet:

Nagy veszteségű (loss) minták: ahol a modell téved, ott tanul a legtöbbet – de csak akkor, ha nem outlier zaj.
Döntési határon lévő példák: triázs vagy diagnosztikai szövegértés esetén tipikusan ilyenek a hasonló tünetek.
Új, eddig nem látott megfogalmazások: telemedicinában a laikus nyelv gyakran eltér a szakmai terminológiától.

Retailben ugyanez: a ritka kosár-összetételek, új termékek, szezonális minták (karácsonyi csúcs utáni visszáru, januári leárazás) különösen értékesek.

Mit hoz újat az UDS (Utility-Diversity Sampling)?

Válasz röviden: az UDS egyszerre méri a hasznosságot és a diverzitást, ráadásul úgy, hogy nem támaszkodik külső modellekre, és nem tesz fölösleges visszaterjesztést (backprop) a szelekció miatt.

A javasolt keretrendszer két diverzitás-szintet kezel:

Mintán belüli diverzitás (intra-sample): mennyire „gazdag” információt hordoz egy adott mintához tartozó modellkimenet.
Minták közötti diverzitás (inter-sample): mennyire hasonlít a jelölt minta a már kiválasztott / korábban látott mintákhoz.

A cikk kulcsötlete, hogy az intra-sample utility+diverzitást a modell logit-mátrixának nukleáris normájával ragadja meg. Magyarul: nem csak azt nézi, hogy a modell mennyire „bizonytalan”, hanem azt is, hogy a kimeneti eloszlások mennyire többdimenziós, változatos struktúrát mutatnak.

Az inter-sample diverzitást pedig egy hatékony, alacsony dimenziós embedding-összehasonlítással becsli, egy könnyű memóriapuffer segítségével, amiben történeti minták reprezentációi vannak.

Egy mondatban: az UDS nem engedi, hogy a tréningbatch tele legyen „ugyanolyan” példákkal, még akkor sem, ha mindegyik külön-külön hasznosnak tűnik.

Miért jó, hogy nincs szükség validációs készletre vagy referenciamodellre?

Egészségügyben a validációs készlet fenntartása sokszor nem technikai, hanem szervezeti kérdés:

külön jogosultságok,
anonimizálási pipeline-ok,
audit,
adatminőség és annotációs követelmények.

Ha a szelekció módszere ezek nélkül is működik, az rövidebb bevezetési időt és kisebb kockázatot jelent. Retail/e-kereskedelemben pedig egyszerűen gyorsabb iteráció: kampányok, kreatívok, termékfeed változik, a modellnek követnie kell.

Mit jelent ez a gyakorlatban diagnosztikában és telemedicinában?

Válasz röviden: az UDS-szerű szelekcióval gyorsabban lehet finomhangolni, miközben nő az esélye annak, hogy a modell ritkább esetekben is stabil marad.

Képzeld el, hogy van egy LLM-alapú triázs asszisztensed, amit magyar nyelvű betegpanaszokra hangolsz. A tanítóadatban rengeteg ismétlődés van: „fáj a torkom”, „köhögök”, „hőemelkedésem van”. Ezek fontosak, de hamar redundánssá válnak.

A kritikus, ritkább minták viszont ilyenek:

atípusos tünetleírások (pl. „furcsa szorítás a mellkasomban, de nem fáj”),
idős vagy gyermek betegek eltérő kommunikációja,
több betegség egyidejű fennállása,
gyógyszer-interakciók említése,
sürgősségi „red flag” mintázatok.

A diverzitás-tudatos batch szelekció nagyobb eséllyel tartja bent ezeket a mintákat a tréning fókuszában, miközben nem költöd el a teljes budgetet a sokadik, szinte azonos „megfázás” párbeszédre.

Párhuzam az e-kereskedelemmel: ritka kosarak, ritka hibák

Ugyanez a logika működik egy e-kereskedelmi ügyfélszolgálati LLM-nél:

A gyakori kérdések (szállítási idő, fizetés) gyorsan redundánsak.
Az igazán drága esetek a ritkák: számlázási kivétel, több csomag egy rendelés, vitás chargeback, sérült áru bizonyítás, jogi hangvétel.

Ha a tréningbatch diverz marad, a modell kevésbé fog „lefagyni” a szélső eseteknél. Ez közvetlenül csökkenti az emberi eszkalációt és javítja az ügyfélélményt.

Hogyan vezetnéd be: egy praktikus, kockázatcsökkentő terv

Válasz röviden: először mérj alapállapotot, majd fokozatosan csökkentsd a data budgetet, és közben figyeld a minőség–költség görbét és a fairness metrikákat.

Ha LLM finomhangolást végzel egészségügyi vagy retail környezetben, én így állnék neki:

Baseline SFT kis költségvetéssel: futtass rövid SFT-t a teljes adaton (kevés lépés/epoch), hogy legyen viszonyítás.
Adatbudget kísérletek: próbáld ki a 30% / 50% / 70% kiválasztott mintát online szelekcióval.
Diverzitás-ellenőrzés emberrel: nézz rá néhány batchre: nem ugyanazt a mintát forgatja-e újra és újra a rendszer.
Célzott metrikák: ne csak átlagos pontosságot mérj.
- Egészségügyben: alcsoport teljesítmény (életkor, nem, komorbiditás, dialektus/nyelvhasználat), hallucinációs arány, veszélyes tanács detektálása.
- Retailben: intent-felismerés ritka intentekre, CSAT proxy, eszkalációs ráta.
Governance: rögzítsd a szelekció paramétereit (mint egy „adat-receptet”), hogy auditálható legyen, miért azt tanulta a modell.

Jó ökölszabály: ha a kiválasztott adatmennyiség csökken, de a ritka esetekben nem romlik a teljesítmény, akkor tényleg nyertél.

Gyakori kérdések (amit a csapatok tényleg feltesznek)

„Nem veszítünk így fontos adatot?”

Ha a szelekció csak utility-alapú, akkor igen, könnyen. A diverzitás explicit kezelése pont azért fontos, mert a „fontos” adat gyakran ritka és nem látványosan nagy loss-ú.

„Mitől lesz ez gyorsabb, ha közben pontozgatunk?”

Az UDS egyik ígérete, hogy a szelekciót úgy tervezi, hogy ne hozzon extra backprop-ot, és ne igényeljen külső validációs futásokat. A cél az, hogy a megtakarított tréninglépések többet hozzanak, mint amennyibe a pontozás kerül.

„Hogyan kapcsolódik ez a kiskereskedelmi AI sorozatunkhoz?”

Ugyanazzal a problémával küzdünk: rengeteg adat, limitált compute, gyors kampányciklusok. A jó adatválogatás a kereslet-előrejelzéstől az ajánlórendszerekig mindenhol gyorsítja az iterációt – és ugyanez igaz az egészségügyi LLM-ekre is.

Merre tovább: gyorsabb tréning, stabilabb modellek, kevesebb vakfolt

Az UDS üzenete számomra egyszerű: a batch összeállítása nem adminisztratív részlet, hanem modellminőségi döntés. Ha a finomhangolás során tudatosan kezeled a hasznosságot és a diverzitást, akkor jobb eséllyel kapsz olyan modellt, ami nem csak a „gyakori” esetekben ügyes, hanem a ritkább, kockázatosabb helyzetekben is kiszámítható.

Ha egészségügyi AI rendszert építesz (diagnosztikai szövegértés, telemedicina, dokumentáció-összefoglalás), vagy e-kereskedelmi LLM-et (ügyfélszolgálat, termékleírás, kereső), a következő lépés nagyon konkrét: teszteld a data budget csökkentését diverzitás-tudatos online szelekcióval, és mérd meg, hol van a minőség–költség optimum.

A kérdés, ami 2026 elején egyre több csapatnál előjön majd: a következő finomhangolásnál tényleg mindent meg akarsz tanítani a modellnek – vagy csak azt, ami számít?