LLM mintavételi diverzitás: pontosabb AI diagnózis

Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben••By 3L3C

A mintavételi diverzitás Best-of-N mellett csökkenti az LLM-hibákat. Nézd meg, hogyan javíthatja az AI-t egészségügyben és e-kereskedelemben.

LLM inferenciamintavételi diverzitástelemedicinadöntéstámogatáse-kereskedelem AIprompt engineering
Share:

Featured image for LLM mintavételi diverzitás: pontosabb AI diagnózis

LLM mintavételi diverzitás: pontosabb AI diagnózis

A legtöbb szervezet ott rontja el az LLM-ek (nagy nyelvi modellek) bevezetését, hogy a „jobb válasz” reményében egyszerűen csak több választ kér ugyanattól a prompttól. Ez olcsónak tűnik, gyorsnak tűnik, és sokszor még működik is. Csakhogy a friss kutatások szerint van egy ennél megbízhatóbb út: nem (csak) több mintát kell venni, hanem változatosabbakat.

A 2025.12.22-én frissített, 2025-ös arXiv-tanulmány (2502.11027) azt vizsgálja, mi történik, ha az LLM-inferencia skálázását nem „állandó” prompttal, hanem tudatosan diverz prompt-perturbációkkal végezzük. A szerzők szerint a megfelelő diverzitás mérhetően csökkenti a hibaarányt a Best-of-N (BoN) kiválasztásnál, és a kísérleteikben +10,8% relatív javulást értek el EM@100-ban érvelési feladatokon (emellett matekban és kódban is ~9–10% körüli relatív nyereséget).

Ez a téma elsőre „csak” LLM-módszertan. De valójában nagyon is gyakorlati, különösen két területen, ahol a gyors és megbízható döntés pénzt, időt és néha emberéletet jelent: egészségügyben és kiskereskedelemben/e-kereskedelemben. Én azt látom, hogy 2026 felé haladva a siker kulcsa nem az, hogy „melyik modellt veszed meg”, hanem hogy hogyan futtatod.

Mit jelent a mintavételi diverzitás LLM-inferenciánál?

A lényeg: ugyanarra a problémára többféle „nézőpontból” kérsz választ, majd egy kiválasztási szabállyal (például Best-of-N) a legjobbat emeled ki.

Best-of-N egyszerűen

A Best-of-N azt jelenti, hogy generálsz N darab választ, és kiválasztod „a legjobbat” egy értékelő jel (reward model), szabályalapú ellenőrzés, vagy akár egy külön „bíró” modell alapján.

A kutatás üzenete: ha mind az N válasz túl hasonló (mert a prompt is ugyanaz, a sampling beállítások is közel azonosak), akkor hiába növeled N-t, a hibák együtt mozognak. Magyarul: sokszor csak ugyanazt a rossz gondolatmenetet kapod meg 100 verzióban.

Mi a diverzitás itt?

A diverzitás nem random „színesítés”. A tanulmány alapján a meaningful response diversity a fontos: olyan változatosság, ami valódi alternatív megoldási útvonalakat hoz.

Egyszerű példa a gyakorlatból:

  • „Adj diagnosztikai javaslatot” vs.
  • „Sorolj fel 3 lehetsĂ©ges differenciáldiagnĂłzist Ă©s mindegyikhez 2 ellenĹ‘rzĹ‘ kĂ©rdĂ©st”

Mindkettő ugyanarról szól, de a második prompt strukturálja a gondolkodást, és gyakran más hibákat (vagy épp kevesebbet) eredményez.

Miért csökkenti a hibát a diverz promptokkal vett BoN?

Válasz elsőként: mert a hibák korrelációját csökkenti. Ha a válaszok nem ugyanabból a „gondolkodási vájatból” jönnek, a BoN válogatás nagyobb eséllyel talál jó jelöltet.

A tanulmány egyik fontos állítása, hogy a diverz promptokból származó minták BoN kiválasztása szignifikánsan alacsonyabb hibaarányt adhat, mint a stacioner (változatlan) promptból vett minták.

A diverzitás–hűség (diversity–fidelity) csere

A kutatás bevezet egy gyakorlati elvet: ha túl erősen „megzavarod” a promptot, romlik a hűség, vagyis a modell eltávolodik a feladattól (hallucináció, irreleváns kitérők, „szép szöveg, rossz tartalom”).

Ez nekem azért tetszik, mert kimondja azt, amit a terepen is látunk:

  • kevĂ©s diverzitás → sok hasonlĂł hiba
  • tĂşl sok diverzitás → szĂ©tcsĂşszĂł válaszminĹ‘sĂ©g
  • az optimális pont → cĂ©lzott, kontrollált perturbáciĂł

Egészségügy: gyorsabb, megbízhatóbb döntéstámogatás

Az egészségügyi AI-nál az inferencia nem „szövegírás”, hanem kockázatkezelés. Telemedicinában, triázsban, radiológiai előszűrésben vagy gyógyszer-interakció ellenőrzésben az számít, hogy 1–2 percen belül kapsz-e olyan választ, ami konzisztens, ellenőrizhető és nem hagy ki kritikus lehetőségeket.

1) Telemedicina és triázs: a leggyakoribb hiba a túl korai lezárás

Az LLM-ek hajlamosak gyorsan „ráülni” egy magyarázatra. Diverz promptokkal kényszerítheted, hogy több irányt is bejárjon:

  • Biztonsági prompt: „Sorolj fel 5 vörös zászlĂłt, ami azonnali sĂĽrgĹ‘ssĂ©gre utal.”
  • Differenciál prompt: „Adj 3 alternatĂ­v magyarázatot, mindegyikhez 2 ellenĹ‘rzĹ‘ kĂ©rdĂ©ssel.”
  • Protokoll prompt: „Írj lĂ©pĂ©srĹ‘l lĂ©pĂ©sre triázs-javaslatot, mikor milyen vizsgálat kell.”

A BoN itt nem azt jelenti, hogy „a legszebb választ” választod ki, hanem azt, amelyik:

  • a legtöbb kritikus kockázatot lefedi,
  • a legkevesebb tĂ©nyt állĂ­t bizonyĂ­tĂ©k nĂ©lkĂĽl,
  • Ă©s a legjobban illeszkedik az intĂ©zmĂ©nyi protokollhoz.

2) Radiológia: gyors előszűrés, jobb munkafolyamat

A kampány szempontjából ez kulcspont: ha a modellek inferenciája skálázható és megbízható, akkor a radiológiai leletezésnél a „második szem” szerep erősödhet.

A diverzitás itt úgy lehet hasznos, hogy különböző fókuszú lelet-szempontokat kérsz:

  • „Csak a tĂĽdĹ‘parenchymára fĂłkuszálj.”
  • „Keresd a pleurális eltĂ©rĂ©seket.”
  • „Írj rövid, strukturált összefoglalĂłt Ă©s jelöld a bizonytalanságot.”

Majd egy szabályrendszerrel (vagy klinikai validáló modellel) kiválasztod a legbiztonságosabb, legteljesebb jelöltet.

3) Klinikai adminisztráció: kevesebb hiba, kevesebb visszakérdezés

Az LLM-ek ma sok helyen dokumentációt és betegkommunikációt támogatnak. Itt a diverzitás célja gyakran nem az, hogy „kreatívabb” legyen a szöveg, hanem hogy:

  • egyszer legyen laikusbarát,
  • egyszer legyen jogilag/protokoll szerint precĂ­z,
  • egyszer legyen rövid, műszakváltásnál átadhatĂł.

Ez csökkentheti a félreértéseket és a visszakérdezések számát — ami közvetve időt szabadít fel.

Kiskereskedelem és e-kereskedelem: ugyanaz a módszer, más tét

Ebben a cikksorozatban (MI a kiskereskedelemben és e-kereskedelemben) eddig jellemzően ajánlórendszerekről, kereslet-előrejelzésről és vásárlói viselkedéselemzésről beszélünk. A mostani papír azért illik ide, mert a legtöbb e-kereskedelmi LLM-alkalmazásnál az igazi gond nem a „modell okossága”, hanem az, hogy:

  • csĂşcsidĹ‘ben (ĂĽnnepi szezon, akciĂłk, kĂ©t ĂĽnnep között) konzisztens-e,
  • több nyelven Ă©s több kategĂłriában is stabil-e,
  • Ă©s mennyi hibás választ „enged át” az ĂĽgyfĂ©lszolgálati folyamat.

Konkrét use case: ügyfélszolgálati válaszok minőségi szűrése

Karácsony után (2025.12.22 környékén) tipikus a visszaküldés, csere, késés miatti reklamáció. A BoN + diverzitás ilyenkor úgy segít, hogy ugyanarra az ügyre generálsz:

  1. Empatikus, rövid válasz (CSAT fókusz)
  2. Szabályzat-kompatibilis válasz (policy fókusz)
  3. Operatív következő lépés (logisztika fókusz)

A kiválasztási szabály lehet:

  • tartalmazza-e a kötelezĹ‘ elemeket (határidĹ‘, RMA lĂ©pĂ©sek),
  • nem Ă­gĂ©r-e olyat, amit a rendszer nem tud (pl. azonnali visszatĂ©rĂ­tĂ©s),
  • megfelel-e a márkanyelvnek.

Ezzel a módszerrel nem kell drágább modell a jobb minőséghez; sokszor elég az inferencia okosabb szervezése.

Mikor működik, és mikor „tűnik el” a diverzitás?

A tanulmány egyik józan megállapítása: többségi szavazásnál (majority voting) a diverzitás el tud tűnni. Ennek gyakorlati megfelelője, amikor a rendszer a leggyakoribb mintát választja, ami sokszor pont a „legátlagosabb” (és néha pont a hibásan magabiztos) válasz.

Gyakorlati szabály: ne csak szavaztass, pontozz

Ha egészségügyi vagy e-kereskedelmi környezetben stabil minőség kell, én a következőket tartom működőnek:

  • Best-of-N Ă©rtĂ©kelĹ‘vel: szabályalapĂş checklistek + minĹ‘sĂ­tĹ‘ modell
  • KĂ©nyszerĂ­tett struktĂşra: táblázatos/mezĹ‘s kimenet (pl. „tĂĽnetek–kockázat–teendő”)
  • Bizonytalanság kezelĂ©se: a modellnek kötelezĹ‘ jelölni, mihez kell emberi döntĂ©s

Hogyan vezesd be: egy 4 lépéses „diverz inferencia” recept

Válasz elsőként: kis N-nel kezdd, de okos prompt-családdal. Nem a 100 minta a lényeg, hanem hogy ne ugyanazt a hibát ismételgesd.

  1. Határozd meg a célfüggvényt

    • EgĂ©szsĂ©gĂĽgy: biztonság, protokoll-követĂ©s, hiányzĂł kockázatok minimalizálása
    • E-kereskedelem: policy-kompatibilitás, gyors megoldás, CSAT
  2. Építs 3–6 prompt-variánst (prompt-családot)

    • más nĂ©zĹ‘pont, más struktĂşra, de ugyanaz a feladat
  3. Futtass Best-of-N válogatást értékelőkkel

    • checklist (szabály), majd rangsor (modell/heurisztika)
  4. Mérj üzletileg értelmezhető mutatókat

    • egĂ©szsĂ©gĂĽgy: visszautalások, hibás triázs-arány, orvosi felĂĽlbĂ­rálatok
    • e-kereskedelem: átlagos kezelĂ©si idĹ‘, eszkaláciĂłk aránya, first contact resolution

Egy mondatban: a diverzitás akkor ér valamit, ha a kiválasztásod is okos.

Mit vigyél magaddal ebből a kutatásból?

A tanulmány konkrétan azt sugallja, hogy jól megtervezett mintavételi diverzitással 10% körüli relatív javulás elérhető több feladattípuson nagy N esetén (pl. EM@100, Pass@100). Ez nem aprópénz, ha a tét betegbiztonság, vagy ha karácsonyi csúcsidőben a hibás ügyfélszolgálati válaszok tömeges kompenzációkhoz vezetnek.

Ha most építesz LLM-alapú rendszert (triázs, telemedicina-támogatás, belső klinikai asszisztens, e-kereskedelmi ügyfélszolgálat), én a „promptoljunk egyet és kész” megközelítést elengedném. A skálázott inferencia nem mennyiségi kérdés, hanem diverzitásmenedzsment.

A következő logikus lépés: végignézni a saját folyamataidat, és megkérdezni magadtól, hol fáj jobban a hiba ára — diagnózis-javaslatban, gyógyszer-információban, vagy a vásárlói reklamációk kezelésében. Ahol a tét magas, ott a diverz inferencia egyszerűen nem „nice to have”, hanem alap.