A mintavĂ©teli diverzitás Best-of-N mellett csökkenti az LLM-hibákat. NĂ©zd meg, hogyan javĂthatja az AI-t egĂ©szsĂ©gĂĽgyben Ă©s e-kereskedelemben.

LLM mintavételi diverzitás: pontosabb AI diagnózis
A legtöbb szervezet ott rontja el az LLM-ek (nagy nyelvi modellek) bevezetĂ©sĂ©t, hogy a „jobb válasz” remĂ©nyĂ©ben egyszerűen csak több választ kĂ©r ugyanattĂłl a prompttĂłl. Ez olcsĂłnak tűnik, gyorsnak tűnik, Ă©s sokszor mĂ©g működik is. Csakhogy a friss kutatások szerint van egy ennĂ©l megbĂzhatĂłbb Ăşt: nem (csak) több mintát kell venni, hanem változatosabbakat.
A 2025.12.22-Ă©n frissĂtett, 2025-ös arXiv-tanulmány (2502.11027) azt vizsgálja, mi törtĂ©nik, ha az LLM-inferencia skálázását nem „állandó” prompttal, hanem tudatosan diverz prompt-perturbáciĂłkkal vĂ©gezzĂĽk. A szerzĹ‘k szerint a megfelelĹ‘ diverzitás mĂ©rhetĹ‘en csökkenti a hibaarányt a Best-of-N (BoN) kiválasztásnál, Ă©s a kĂsĂ©rleteikben +10,8% relatĂv javulást Ă©rtek el EM@100-ban Ă©rvelĂ©si feladatokon (emellett matekban Ă©s kĂłdban is ~9–10% körĂĽli relatĂv nyeresĂ©get).
Ez a tĂ©ma elsĹ‘re „csak” LLM-mĂłdszertan. De valĂłjában nagyon is gyakorlati, kĂĽlönösen kĂ©t terĂĽleten, ahol a gyors Ă©s megbĂzhatĂł döntĂ©s pĂ©nzt, idĹ‘t Ă©s nĂ©ha emberĂ©letet jelent: egĂ©szsĂ©gĂĽgyben Ă©s kiskereskedelemben/e-kereskedelemben. Én azt látom, hogy 2026 felĂ© haladva a siker kulcsa nem az, hogy „melyik modellt veszed meg”, hanem hogy hogyan futtatod.
Mit jelent a mintavételi diverzitás LLM-inferenciánál?
A lényeg: ugyanarra a problémára többféle „nézőpontból” kérsz választ, majd egy kiválasztási szabállyal (például Best-of-N) a legjobbat emeled ki.
Best-of-N egyszerűen
A Best-of-N azt jelenti, hogy generálsz N darab választ, Ă©s kiválasztod „a legjobbat” egy Ă©rtĂ©kelĹ‘ jel (reward model), szabályalapĂş ellenĹ‘rzĂ©s, vagy akár egy kĂĽlön „bĂró” modell alapján.
A kutatás ĂĽzenete: ha mind az N válasz tĂşl hasonlĂł (mert a prompt is ugyanaz, a sampling beállĂtások is közel azonosak), akkor hiába növeled N-t, a hibák egyĂĽtt mozognak. Magyarul: sokszor csak ugyanazt a rossz gondolatmenetet kapod meg 100 verziĂłban.
Mi a diverzitás itt?
A diverzitás nem random „szĂnesĂtĂ©s”. A tanulmány alapján a meaningful response diversity a fontos: olyan változatosság, ami valĂłdi alternatĂv megoldási Ăştvonalakat hoz.
Egyszerű példa a gyakorlatból:
- „Adj diagnosztikai javaslatot” vs.
- „Sorolj fel 3 lehetséges differenciáldiagnózist és mindegyikhez 2 ellenőrző kérdést”
Mindkettő ugyanarról szól, de a második prompt strukturálja a gondolkodást, és gyakran más hibákat (vagy épp kevesebbet) eredményez.
Miért csökkenti a hibát a diverz promptokkal vett BoN?
Válasz elsőként: mert a hibák korrelációját csökkenti. Ha a válaszok nem ugyanabból a „gondolkodási vájatból” jönnek, a BoN válogatás nagyobb eséllyel talál jó jelöltet.
A tanulmány egyik fontos állĂtása, hogy a diverz promptokbĂłl származĂł minták BoN kiválasztása szignifikánsan alacsonyabb hibaarányt adhat, mint a stacioner (változatlan) promptbĂłl vett minták.
A diverzitás–hűség (diversity–fidelity) csere
A kutatás bevezet egy gyakorlati elvet: ha túl erősen „megzavarod” a promptot, romlik a hűség, vagyis a modell eltávolodik a feladattól (hallucináció, irreleváns kitérők, „szép szöveg, rossz tartalom”).
Ez nekem azért tetszik, mert kimondja azt, amit a terepen is látunk:
- kevés diverzitás → sok hasonló hiba
- túl sok diverzitás → szétcsúszó válaszminőség
- az optimális pont → célzott, kontrollált perturbáció
EgĂ©szsĂ©gĂĽgy: gyorsabb, megbĂzhatĂłbb döntĂ©stámogatás
Az egĂ©szsĂ©gĂĽgyi AI-nál az inferencia nem „szövegĂrás”, hanem kockázatkezelĂ©s. Telemedicinában, triázsban, radiolĂłgiai elĹ‘szűrĂ©sben vagy gyĂłgyszer-interakciĂł ellenĹ‘rzĂ©sben az számĂt, hogy 1–2 percen belĂĽl kapsz-e olyan választ, ami konzisztens, ellenĹ‘rizhetĹ‘ Ă©s nem hagy ki kritikus lehetĹ‘sĂ©geket.
1) Telemedicina és triázs: a leggyakoribb hiba a túl korai lezárás
Az LLM-ek hajlamosak gyorsan „ráülni” egy magyarázatra. Diverz promptokkal kĂ©nyszerĂtheted, hogy több irányt is bejárjon:
- Biztonsági prompt: „Sorolj fel 5 vörös zászlót, ami azonnali sürgősségre utal.”
- Differenciál prompt: „Adj 3 alternatĂv magyarázatot, mindegyikhez 2 ellenĹ‘rzĹ‘ kĂ©rdĂ©ssel.”
- Protokoll prompt: „Írj lépésről lépésre triázs-javaslatot, mikor milyen vizsgálat kell.”
A BoN itt nem azt jelenti, hogy „a legszebb választ” választod ki, hanem azt, amelyik:
- a legtöbb kritikus kockázatot lefedi,
- a legkevesebb tĂ©nyt állĂt bizonyĂtĂ©k nĂ©lkĂĽl,
- és a legjobban illeszkedik az intézményi protokollhoz.
2) Radiológia: gyors előszűrés, jobb munkafolyamat
A kampány szempontjábĂłl ez kulcspont: ha a modellek inferenciája skálázhatĂł Ă©s megbĂzhatĂł, akkor a radiolĂłgiai leletezĂ©snĂ©l a „második szem” szerep erĹ‘södhet.
A diverzitás itt úgy lehet hasznos, hogy különböző fókuszú lelet-szempontokat kérsz:
- „Csak a tüdőparenchymára fókuszálj.”
- „Keresd a pleurális eltéréseket.”
- „Írj rövid, strukturált összefoglalót és jelöld a bizonytalanságot.”
Majd egy szabályrendszerrel (vagy klinikai validáló modellel) kiválasztod a legbiztonságosabb, legteljesebb jelöltet.
3) Klinikai adminisztráció: kevesebb hiba, kevesebb visszakérdezés
Az LLM-ek ma sok helyen dokumentáciĂłt Ă©s betegkommunikáciĂłt támogatnak. Itt a diverzitás cĂ©lja gyakran nem az, hogy „kreatĂvabb” legyen a szöveg, hanem hogy:
- egyszer legyen laikusbarát,
- egyszer legyen jogilag/protokoll szerint precĂz,
- egyszer legyen rövid, műszakváltásnál átadható.
Ez csökkentheti a fĂ©lreĂ©rtĂ©seket Ă©s a visszakĂ©rdezĂ©sek számát — ami közvetve idĹ‘t szabadĂt fel.
Kiskereskedelem és e-kereskedelem: ugyanaz a módszer, más tét
Ebben a cikksorozatban (MI a kiskereskedelemben Ă©s e-kereskedelemben) eddig jellemzĹ‘en ajánlĂłrendszerekrĹ‘l, kereslet-elĹ‘rejelzĂ©srĹ‘l Ă©s vásárlĂłi viselkedĂ©selemzĂ©srĹ‘l beszĂ©lĂĽnk. A mostani papĂr azĂ©rt illik ide, mert a legtöbb e-kereskedelmi LLM-alkalmazásnál az igazi gond nem a „modell okossága”, hanem az, hogy:
- csúcsidőben (ünnepi szezon, akciók, két ünnep között) konzisztens-e,
- több nyelven és több kategóriában is stabil-e,
- és mennyi hibás választ „enged át” az ügyfélszolgálati folyamat.
Konkrét use case: ügyfélszolgálati válaszok minőségi szűrése
Karácsony után (2025.12.22 környĂ©kĂ©n) tipikus a visszakĂĽldĂ©s, csere, kĂ©sĂ©s miatti reklamáciĂł. A BoN + diverzitás ilyenkor Ăşgy segĂt, hogy ugyanarra az ĂĽgyre generálsz:
- Empatikus, rövid válasz (CSAT fókusz)
- Szabályzat-kompatibilis válasz (policy fókusz)
- OperatĂv következĹ‘ lĂ©pĂ©s (logisztika fĂłkusz)
A kiválasztási szabály lehet:
- tartalmazza-e a kötelező elemeket (határidő, RMA lépések),
- nem ĂgĂ©r-e olyat, amit a rendszer nem tud (pl. azonnali visszatĂ©rĂtĂ©s),
- megfelel-e a márkanyelvnek.
Ezzel a módszerrel nem kell drágább modell a jobb minőséghez; sokszor elég az inferencia okosabb szervezése.
Mikor működik, és mikor „tűnik el” a diverzitás?
A tanulmány egyik jĂłzan megállapĂtása: többsĂ©gi szavazásnál (majority voting) a diverzitás el tud tűnni. Ennek gyakorlati megfelelĹ‘je, amikor a rendszer a leggyakoribb mintát választja, ami sokszor pont a „legátlagosabb” (Ă©s nĂ©ha pont a hibásan magabiztos) válasz.
Gyakorlati szabály: ne csak szavaztass, pontozz
Ha egészségügyi vagy e-kereskedelmi környezetben stabil minőség kell, én a következőket tartom működőnek:
- Best-of-N Ă©rtĂ©kelĹ‘vel: szabályalapĂş checklistek + minĹ‘sĂtĹ‘ modell
- KĂ©nyszerĂtett struktĂşra: táblázatos/mezĹ‘s kimenet (pl. „tĂĽnetek–kockázat–teendő”)
- Bizonytalanság kezelése: a modellnek kötelező jelölni, mihez kell emberi döntés
Hogyan vezesd be: egy 4 lépéses „diverz inferencia” recept
Válasz elsőként: kis N-nel kezdd, de okos prompt-családdal. Nem a 100 minta a lényeg, hanem hogy ne ugyanazt a hibát ismételgesd.
-
Határozd meg a célfüggvényt
- Egészségügy: biztonság, protokoll-követés, hiányzó kockázatok minimalizálása
- E-kereskedelem: policy-kompatibilitás, gyors megoldás, CSAT
-
ÉpĂts 3–6 prompt-variánst (prompt-családot)
- más nézőpont, más struktúra, de ugyanaz a feladat
-
Futtass Best-of-N válogatást értékelőkkel
- checklist (szabály), majd rangsor (modell/heurisztika)
-
Mérj üzletileg értelmezhető mutatókat
- egĂ©szsĂ©gĂĽgy: visszautalások, hibás triázs-arány, orvosi felĂĽlbĂrálatok
- e-kereskedelem: átlagos kezelési idő, eszkalációk aránya, first contact resolution
Egy mondatban: a diverzitás akkor ér valamit, ha a kiválasztásod is okos.
Mit vigyél magaddal ebből a kutatásból?
A tanulmány konkrĂ©tan azt sugallja, hogy jĂłl megtervezett mintavĂ©teli diverzitással 10% körĂĽli relatĂv javulás elĂ©rhetĹ‘ több feladattĂpuson nagy N esetĂ©n (pl. EM@100, Pass@100). Ez nem aprĂłpĂ©nz, ha a tĂ©t betegbiztonság, vagy ha karácsonyi csĂşcsidĹ‘ben a hibás ĂĽgyfĂ©lszolgálati válaszok tömeges kompenzáciĂłkhoz vezetnek.
Ha most Ă©pĂtesz LLM-alapĂş rendszert (triázs, telemedicina-támogatás, belsĹ‘ klinikai asszisztens, e-kereskedelmi ĂĽgyfĂ©lszolgálat), Ă©n a „promptoljunk egyet Ă©s kĂ©sz” megközelĂtĂ©st elengednĂ©m. A skálázott inferencia nem mennyisĂ©gi kĂ©rdĂ©s, hanem diverzitásmenedzsment.
A következő logikus lépés: végignézni a saját folyamataidat, és megkérdezni magadtól, hol fáj jobban a hiba ára — diagnózis-javaslatban, gyógyszer-információban, vagy a vásárlói reklamációk kezelésében. Ahol a tét magas, ott a diverz inferencia egyszerűen nem „nice to have”, hanem alap.