Okosabb SFT: gyorsabb, igazságosabb LLM-ek az egészségügyben

Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben••By 3L3C

Diverzitás-tudatos online batch szelekcióval gyorsabb SFT és stabilabb LLM-ek. Egészségügyben és e-kereskedelemben is kevesebb költség, kevesebb bias.

LLM tréningadatkurálásdiverzitásegészségügyi AItelemedicinae-kereskedelem AI
Share:

Featured image for Okosabb SFT: gyorsabb, igazságosabb LLM-ek az egészségügyben

Okosabb SFT: gyorsabb, igazságosabb LLM-ek az egészségügyben

A legtöbb csapat még mindig túl sok adatot etet a modelljével – aztán meglepődik, hogy a finomhangolás drága, lassú, és néha még ront is a viselkedésen. A valóság: nem az a kérdés, van-e elég tréningadat, hanem az, hogy melyik minta éri meg a számítási időt.

Pont ezt a problémát célozza a friss kutatás a Utility-Diversity Sampling (UDS) keretrendszerrel: online batch szelekciót javasol felügyelt finomhangoláshoz (SFT), ahol a modell tréning közben dönt arról, melyik mintákat érdemes megtartani. Ami nekem különösen fontos benne: a módszer nem csak „hasznos” példákat keres, hanem a diverzitást is beépíti, és mindezt úgy, hogy nem kér külső validációs készletet vagy referenciamodellt.

Ez a téma elsőre „LLM-képzési belügynek” tűnhet, de a kampányunk szempontjából nagyon is gyakorlati: ha egészségügyi chatbotot, triázs-asszisztenst, radiológiai leletező segédet vagy telemedicinás ügyfélkommunikációt támogató modellt finomhangolsz, a gyorsabb és diverzitás-tudatos tanítás közvetlenül hat a pontosságra, az elfogultságra és a költségre. És mivel a sorozatunk a kiskereskedelem és e-kereskedelem AI témára épül, a tanulság ugyanaz: ajánlórendszereknél, kereslet-előrejelzésnél, ügyfélszolgálati LLM-eknél is az nyer, aki okosabban válogatja a tanítóadatot.

Miért fáj ennyire a teljes adathalmazon végzett SFT?

Válasz röviden: mert a teljes SFT sokszor felesleges számítás, és közben növelheti az overfittinget és a bias erősödését.

A felügyelt finomhangolás (SFT) tipikus forgatókönyve: van egy nagy, vegyes minőségű utasítás–válasz (instruction) adatbázis, és minden mintán végigmész, epoch-ról epoch-ra. Ez a „biztos, ami biztos” megközelítés három helyen szokott elcsúszni:

  1. Költség és idő: ha a célmodell LLM, az SFT könnyen elviszi a budgetet. Decemberben (év végi hajrában) ez különösen fáj, amikor a csapatok Q1-es roadmapre készülnek, és gyorsan kellene iterálni.
  2. Minőségromlás: a zajos, redundáns példák képesek elmosni a jó minták tanítóhatását.
  3. Elfogultság felerősítése: ha egy alcsoportra (pl. ritkább betegpopuláció, vagy e-kereskedelemben kisebb vásárlói szegmens) kevés, de kritikus adat jut, a modell könnyen „átlagol”, és rosszabbul teljesít ott, ahol a legnagyobb a kockázat.

Az egészségügyben ez nem akadémikus kérdés. Egy telemedicinás asszisztensnél a ritka tünetkombinációk, a különböző életkorok, nyelvhasználat, komorbiditások pont a diverzitás tengelyén jelentenek értéket.

Online batch szelekció: nem több adat kell, hanem jobb adat

Válasz röviden: online batch szelekciónál a modell tréning közben pontozza a mintákat, és csak a „megérős” példákkal tanul tovább.

A klasszikus adatkurálás gyakran offline történik: előre kiválogatod a top X%-ot, és azon tréningelsz. Az online megközelítés ennél rugalmasabb: ahogy a modell tanul, változik, hogy melyik minta mennyire informatív.

A cikk szerint a népszerű online módszerek tipikus gondjai:

  • Csak hasznosságra (utility) figyelnek, diverzitás nĂ©lkĂĽl → sok „hasonlĂłan könnyű” minta felĂĽlreprezentált lesz.
  • KĂĽlsĹ‘ erĹ‘forrást igĂ©nyelnek (referenciamodell, validáciĂłs kĂ©szlet) → egĂ©szsĂ©gĂĽgyi projektnĂ©l ez gyakran adatvĂ©delmi, hozzáfĂ©rĂ©si vagy governance falakba ĂĽtközik.
  • Plusz trĂ©ningidĹ‘t adnak a teljes adathalmazhoz kĂ©pest → vagyis pont a költsĂ©gproblĂ©mát rontják.

Mi számít „hasznos” mintának egészségügyi és retail kontextusban?

A „utility” a gyakorlatban többféle dolgot jelenthet:

  • Nagy vesztesĂ©gű (loss) minták: ahol a modell tĂ©ved, ott tanul a legtöbbet – de csak akkor, ha nem outlier zaj.
  • DöntĂ©si határon lĂ©vĹ‘ pĂ©ldák: triázs vagy diagnosztikai szövegĂ©rtĂ©s esetĂ©n tipikusan ilyenek a hasonlĂł tĂĽnetek.
  • Ăšj, eddig nem látott megfogalmazások: telemedicinában a laikus nyelv gyakran eltĂ©r a szakmai terminolĂłgiátĂłl.

Retailben ugyanez: a ritka kosár-összetételek, új termékek, szezonális minták (karácsonyi csúcs utáni visszáru, januári leárazás) különösen értékesek.

Mit hoz Ăşjat az UDS (Utility-Diversity Sampling)?

Válasz röviden: az UDS egyszerre méri a hasznosságot és a diverzitást, ráadásul úgy, hogy nem támaszkodik külső modellekre, és nem tesz fölösleges visszaterjesztést (backprop) a szelekció miatt.

A javasolt keretrendszer két diverzitás-szintet kezel:

  • Mintán belĂĽli diverzitás (intra-sample): mennyire „gazdag” informáciĂłt hordoz egy adott mintához tartozĂł modellkimenet.
  • Minták közötti diverzitás (inter-sample): mennyire hasonlĂ­t a jelölt minta a már kiválasztott / korábban látott mintákhoz.

A cikk kulcsötlete, hogy az intra-sample utility+diverzitást a modell logit-mátrixának nukleáris normájával ragadja meg. Magyarul: nem csak azt nézi, hogy a modell mennyire „bizonytalan”, hanem azt is, hogy a kimeneti eloszlások mennyire többdimenziós, változatos struktúrát mutatnak.

Az inter-sample diverzitást pedig egy hatékony, alacsony dimenziós embedding-összehasonlítással becsli, egy könnyű memóriapuffer segítségével, amiben történeti minták reprezentációi vannak.

Egy mondatban: az UDS nem engedi, hogy a tréningbatch tele legyen „ugyanolyan” példákkal, még akkor sem, ha mindegyik külön-külön hasznosnak tűnik.

Miért jó, hogy nincs szükség validációs készletre vagy referenciamodellre?

Egészségügyben a validációs készlet fenntartása sokszor nem technikai, hanem szervezeti kérdés:

  • kĂĽlön jogosultságok,
  • anonimizálási pipeline-ok,
  • audit,
  • adatminĹ‘sĂ©g Ă©s annotáciĂłs követelmĂ©nyek.

Ha a szelekció módszere ezek nélkül is működik, az rövidebb bevezetési időt és kisebb kockázatot jelent. Retail/e-kereskedelemben pedig egyszerűen gyorsabb iteráció: kampányok, kreatívok, termékfeed változik, a modellnek követnie kell.

Mit jelent ez a gyakorlatban diagnosztikában és telemedicinában?

Válasz röviden: az UDS-szerű szelekcióval gyorsabban lehet finomhangolni, miközben nő az esélye annak, hogy a modell ritkább esetekben is stabil marad.

Képzeld el, hogy van egy LLM-alapú triázs asszisztensed, amit magyar nyelvű betegpanaszokra hangolsz. A tanítóadatban rengeteg ismétlődés van: „fáj a torkom”, „köhögök”, „hőemelkedésem van”. Ezek fontosak, de hamar redundánssá válnak.

A kritikus, ritkább minták viszont ilyenek:

  • atĂ­pusos tĂĽnetleĂ­rások (pl. „furcsa szorĂ­tás a mellkasomban, de nem fáj”),
  • idĹ‘s vagy gyermek betegek eltĂ©rĹ‘ kommunikáciĂłja,
  • több betegsĂ©g egyidejű fennállása,
  • gyĂłgyszer-interakciĂłk emlĂ­tĂ©se,
  • sĂĽrgĹ‘ssĂ©gi „red flag” mintázatok.

A diverzitás-tudatos batch szelekció nagyobb eséllyel tartja bent ezeket a mintákat a tréning fókuszában, miközben nem költöd el a teljes budgetet a sokadik, szinte azonos „megfázás” párbeszédre.

Párhuzam az e-kereskedelemmel: ritka kosarak, ritka hibák

Ugyanez a logika működik egy e-kereskedelmi ügyfélszolgálati LLM-nél:

  • A gyakori kĂ©rdĂ©sek (szállĂ­tási idĹ‘, fizetĂ©s) gyorsan redundánsak.
  • Az igazán drága esetek a ritkák: számlázási kivĂ©tel, több csomag egy rendelĂ©s, vitás chargeback, sĂ©rĂĽlt áru bizonyĂ­tás, jogi hangvĂ©tel.

Ha a tréningbatch diverz marad, a modell kevésbé fog „lefagyni” a szélső eseteknél. Ez közvetlenül csökkenti az emberi eszkalációt és javítja az ügyfélélményt.

Hogyan vezetnéd be: egy praktikus, kockázatcsökkentő terv

Válasz röviden: először mérj alapállapotot, majd fokozatosan csökkentsd a data budgetet, és közben figyeld a minőség–költség görbét és a fairness metrikákat.

Ha LLM finomhangolást végzel egészségügyi vagy retail környezetben, én így állnék neki:

  1. Baseline SFT kis költségvetéssel: futtass rövid SFT-t a teljes adaton (kevés lépés/epoch), hogy legyen viszonyítás.
  2. Adatbudget kísérletek: próbáld ki a 30% / 50% / 70% kiválasztott mintát online szelekcióval.
  3. Diverzitás-ellenőrzés emberrel: nézz rá néhány batchre: nem ugyanazt a mintát forgatja-e újra és újra a rendszer.
  4. Célzott metrikák: ne csak átlagos pontosságot mérj.
    • EgĂ©szsĂ©gĂĽgyben: alcsoport teljesĂ­tmĂ©ny (Ă©letkor, nem, komorbiditás, dialektus/nyelvhasználat), hallucináciĂłs arány, veszĂ©lyes tanács detektálása.
    • Retailben: intent-felismerĂ©s ritka intentekre, CSAT proxy, eszkaláciĂłs ráta.
  5. Governance: rögzítsd a szelekció paramétereit (mint egy „adat-receptet”), hogy auditálható legyen, miért azt tanulta a modell.

Jó ökölszabály: ha a kiválasztott adatmennyiség csökken, de a ritka esetekben nem romlik a teljesítmény, akkor tényleg nyertél.

Gyakori kérdések (amit a csapatok tényleg feltesznek)

„Nem veszítünk így fontos adatot?”

Ha a szelekció csak utility-alapú, akkor igen, könnyen. A diverzitás explicit kezelése pont azért fontos, mert a „fontos” adat gyakran ritka és nem látványosan nagy loss-ú.

„Mitől lesz ez gyorsabb, ha közben pontozgatunk?”

Az UDS egyik ígérete, hogy a szelekciót úgy tervezi, hogy ne hozzon extra backprop-ot, és ne igényeljen külső validációs futásokat. A cél az, hogy a megtakarított tréninglépések többet hozzanak, mint amennyibe a pontozás kerül.

„Hogyan kapcsolódik ez a kiskereskedelmi AI sorozatunkhoz?”

Ugyanazzal a problémával küzdünk: rengeteg adat, limitált compute, gyors kampányciklusok. A jó adatválogatás a kereslet-előrejelzéstől az ajánlórendszerekig mindenhol gyorsítja az iterációt – és ugyanez igaz az egészségügyi LLM-ekre is.

Merre tovább: gyorsabb tréning, stabilabb modellek, kevesebb vakfolt

Az UDS üzenete számomra egyszerű: a batch összeállítása nem adminisztratív részlet, hanem modellminőségi döntés. Ha a finomhangolás során tudatosan kezeled a hasznosságot és a diverzitást, akkor jobb eséllyel kapsz olyan modellt, ami nem csak a „gyakori” esetekben ügyes, hanem a ritkább, kockázatosabb helyzetekben is kiszámítható.

Ha egészségügyi AI rendszert építesz (diagnosztikai szövegértés, telemedicina, dokumentáció-összefoglalás), vagy e-kereskedelmi LLM-et (ügyfélszolgálat, termékleírás, kereső), a következő lépés nagyon konkrét: teszteld a data budget csökkentését diverzitás-tudatos online szelekcióval, és mérd meg, hol van a minőség–költség optimum.

A kérdés, ami 2026 elején egyre több csapatnál előjön majd: a következő finomhangolásnál tényleg mindent meg akarsz tanítani a modellnek – vagy csak azt, ami számít?