Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben•2025. december 22.•By 3L3C

A semi-supervised preference optimization kevés visszajelzésből is tanít megbízható AI-t. Nézd meg, mit jelent ez diagnosztikában és e-kereskedelemben.

SSPOpreferenciatanulásegészségügyi AIajánlórendszerekadatcímkézésMistral 7B

Featured image for Kevesebb visszajelzés, pontosabb AI-döntések a gyógyításban

Kevesebb visszajelzés, pontosabb AI-döntések a gyógyításban

A legtöbb AI-projekt ott vérzik el, ahol a legdrágább: minőségi visszajelzést kell gyűjteni. Nem adatot – abból általában van bőven –, hanem jó adatot: páros összehasonlításokat, szakértői értékeléseket, orvosi validálást, auditálható döntési indoklást. Ez különösen igaz az egészségügyben, ahol egyetlen rosszul címkézett eset is elég ahhoz, hogy bizalom, idő és pénz menjen a kukába.

A 2025 végén megjelent kutatás, a Semi-Supervised Preference Optimization with Limited Feedback (SSPO) pont erre mond egy határozott „van jobb út” választ: kevés párosított (címkézett) preferencia visszajelzésből és sok „csak úgy ott lévő” mintából is lehet úgy tanítani a modellt, hogy közben az emberi elvárásokhoz (preferenciákhoz) igazodjon. A szerzők állítása nem apró: a módszerük szerint 1% címkézett adat mellett is meg lehet verni olyan erős baseline-okat, amelyek 10% címkézett adaton tanultak.

És itt jön a csavar, ami miatt ez a téma nem csak ML-kutatóknak érdekes. Ugyanez a gondolkodásmód – korlátozott feedback + sok „nyers” adat – pontosan azt a helyzetet írja le, amiben az egészségügy és (meglepő módon) a kiskereskedelem és e-kereskedelem is él. A sorozatunkban eddig főleg személyre szabásról, kereslet-előrejelzésről és vásárlói viselkedéselemzésről volt szó; most megnézzük, hogyan lehet preferenciákat tanulni kevés visszajelzésből, és miért lehet ez hasznos egyszerre a diagnosztikában és a termékajánlásoknál.

Mit old meg az SSPO? A címkézés a szűk keresztmetszet

Válasz röviden: Az SSPO azt célozza, hogy ne kelljen tömegesen drága páros preferencia-címkéket gyártani, mégis jól igazodjon a modell az emberi elvárásokhoz.

A „preferencia optimalizálás” (preference optimization) a modern nyelvi modellek igazításának egyik alapja: két válasz közül megmondjuk, melyik a jobb (páros preferencia), és a modellt arra tanítjuk, hogy az ilyen „jobb” válaszokat adja. Ez szuper, csak épp:

drága (szakértői idő),
lassú (szervezés, minőségbiztosítás),
szűkös (kevés jó annotátor),
érzékeny (egészségügyben adatvédelmi és megfelelőségi korlátok).

A valós életben viszont van egy másik típusú adat: unpaired minták, például modellválaszok nagy halmaza, előzmények, jegyzetek, triázs-szövegek, betegportál üzenetek, call center leiratok – minden, ami sok, de nincs ráírva, hogy „ez a jobb, az a rosszabb”.

Az SSPO lényege: egy kevés címkézett páros adatra támaszkodva megpróbálja felcímkézni (pontosabban: pszeudo-címkézni) a nagy, címkézetlen halmazt, majd abból tanulni tovább.

A kutatás egyik konkrét ígérete, ami megfogható

A paper egyik jól idézhető állítása:

Az SSPO egy optimális „jutalomküszöböt” (reward threshold) talál, ami nagy valószínűséggel szétválasztja a „nyertes” és „vesztes” válaszokat, és ez alapot ad a pszeudo-címkézéshez.

Magyarul: nem random találgatunk, hanem elvi alapon választunk egy határt, és a küszöb fölötti válaszokat „jó” irányba soroljuk. A szerzők kísérletei szerint így jelentősen nő az adathatékonyság.

Hogyan lehet ebből egészségügyi tanulság? „Korlátozott feedback” a klinikán

Válasz röviden: Az SSPO-szemlélet segít ott, ahol kevés a szakértői visszajelzés, de sok a nyers klinikai adat és interakció, és a cél egy olyan modell, ami megbízhatóan a kívánt döntési stílust követi.

Az egészségügyben a „preferencia” ritkán csak annyi, hogy „ez a válasz szebb”. Inkább ilyenek:

A triázs ajánlás legyen konzervatív, ha életveszély gyanúja van.
A leletmagyarázat ne legyen megnyugtató túl korán, ha bizonytalan a kép.
A terápiás javaslat vegye figyelembe a kontraindikációkat és együttszedett gyógyszereket.
A betegkommunikáció legyen empatikus, de ne ígérjen olyat, amit nem lehet.

Ezeket nagyon nehéz teljes körűen címkézni. Viszont sok olyan jel van, ami implicit feedback:

egy orvos átírta-e a javaslatot,
visszakérdezett-e a beteg,
történt-e eszkaláció,
mennyi idő múlva került sor kontrollra,
milyen lett az outcome (pl. sürgősségi visszatérés 72 órán belül).

Az SSPO jellegű megközelítés ott lehet erős, ahol a kevés explicit preferencia-címkét (szakértői páros értékelés) kombináljuk rengeteg implicit mintával, majd óvatos, auditálható szabályok mentén pszeudo-címkézünk.

Diagnosztika vs. döntéstámogatás: mi a reális cél 2025-12-ben?

Nekem az a tapasztalatom, hogy a legtöbb szervezet túl gyorsan ugrik a „diagnosztizáljon az AI” célra. Sokkal jobb első lépés:

differenciáldiagnózis javaslatok priorizálása,
kritikus vörös zászlók kiemelése,
betegút-ajánlás (triázs),
leletmagyarázat a beteg nyelvén.

Ezeknél a „preferencia” jól megfogható: melyik válasz biztonságosabb, következetesebb, megfelel-e a helyi protokollnak. És itt a kevés, de jó szakértői visszajelzés tényleg aranyat ér.

Mi köze ennek a kiskereskedelemhez és e-kereskedelemhez?

Válasz röviden: Ugyanaz a probléma: nagyon kevés a „tiszta” visszajelzés, miközben óriási az eseményadat, és a cél a preferált döntések megtanulása (ajánlás, rangsorolás, készlet, ügyfélszolgálat).

A sorozatunk fókusza a „Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben”: ajánlórendszerek, kereslet-előrejelzés, készletkezelés, vásárlói viselkedéselemzés. Ezeknél a preferenciák tipikusan:

a vásárló mit választ a listából (implicit),
mire kattint, mit görget tovább (implicit),
mit küld vissza (negatív jel),
milyen az ügyfélszolgálati elégedettség (késleltetett jel).

Az explicit, páros visszajelzés – „A vagy B ajánlás a jobb?” – ritka, mert senki nem akar kérdőíveket töltögetni. Az SSPO logikája viszont azt mondja: készülj fel arra, hogy a döntő rész címkézetlen lesz, és építs olyan tanulási folyamatot, ami ezt nem problémának, hanem adottságnak tekinti.

Egészségügyi analógia e-kereskedelmi nyelven

Orvos-szakértői páros értékelés = kézzel validált A/B rangsorok (drága)
Címkézetlen válaszhalmaz = logok, események, kosárelhagyás, chat-történet (sok)
Preferencia = „biztonságos és protokollhű” vs. „szép, de kockázatos” (egészségügy) vagy „profitábilis, de irritáló” vs. „hosszú távon megtartó” (e-kereskedelem)

A közös gond: milyen küszöb alapján mondjuk egy eseményre, hogy „nyertes” vagy „vesztes”? SSPO erre ad egy elméleti keretet (jutalomküszöb), amit később implementációban és governance-ben kell „földre hozni”.

Gyakorlati útiterv: hogyan alkalmaznám SSPO-szemlélettel egészségügyi AI-t

Válasz röviden: 5 lépésben: célpreferenciák rögzítése → kevés, jó páros címke → jutalommodell + küszöb → pszeudo-címkézés → szigorú ellenőrzés és visszamérés.

1) Fogalmazd meg a preferenciát úgy, hogy auditálható legyen

Nem elég annyi, hogy „jobb válasz”. Példák egészségügyben:

„A válasz akkor nyertes, ha tartalmaz legalább 2 vörös zászlót és javasol eszkalációt X tünetnél.”
„Vesztes, ha gyógyszeradagot javasol testsúly és vesefunkció említése nélkül.”

E-kereskedelemben ugyanez:

„Nyertes, ha csökken a visszaküldési arány és nő a 30 napos retention.”

2) Gyűjts kevés, de erős párosított preferencia címkét

A kutatás állítása szerint a kevés címke is sokat ér, ha jó a módszer. A valóságban a „jó címke” jelentése:

standardizált rubrika,
több annotátor, egyezésmérés,
edge case-ek külön kezelése.

3) Taníts jutalommodellt, majd válassz küszöböt

Az SSPO kulcsa a küszöb, ami szétválaszt. Egészségügyben én ezt nem hagynám „csak ML”-re:

küszöb a különböző kockázati kategóriákra (alacsony/közepes/magas),
külön küszöb érzékeny csoportokra (idős, gyermek, várandós),
folyamatos drift-monitoring.

4) Pszeudo-címkézz óvatosan, és kezeld a bizonytalanságot

A pszeudo-címkézésnél két szabályt tartanék be:

Csak a magas bizonyosságú mintákat címkézd automatikusan.
A „szürke zóna” menjen emberhez (aktív tanulás jelleggel).

Ez a logika a kiskereskedelemben is működik: a „nagyon egyértelmű” preferenciákból gép tanul, a vitás esetekből jön a drága emberi feedback.

5) Mérj olyan metrikát, ami nem csap be

Egészségügyben nem elég a „tetszik” jellegű értékelés. Kell:

biztonsági incidensek aránya,
téves megnyugtatás (false reassurance) proxyk,
eszkalációs megfelelés,
szakértői felülbírálat aránya.

E-kereskedelemben:

visszaküldés,
kosárelhagyás,
ügyfélszolgálati kontaktusok,
hosszabb távú CLV.

Gyakori kérdések, amiket mindenki feltesz (és jogosan)

„A pszeudo-címkézés nem erősíti fel a modell hibáit?”

De, ha rosszul csinálod. A védekezés három részből áll: magas küszöb, szürke zóna emberhez terelése, és rendszeres újracímkézés/újratanítás friss, valódi preferencia-címkékkel.

„Mit jelent a ‘preferencia’ diagnosztikában?”

A legjobb válasz: a döntési stílus és a biztonsági korlátok preferenciája. Például: inkább kérdezzen vissza, mint hogy találgasson; inkább eszkaláljon, mint hogy bagatellizáljon.

„Ez csak nyelvi modellekre igaz?”

A paper nyelvi modellek alignmentjéből jön, de a gondolat – kevés címke + sok címkézetlen adat + küszöbös szeparálás – sok döntéstámogató pipeline-ban értelmezhető, ahol rangsorolás, választás vagy policy-tanulás a cél.

Mit vigyél magaddal ebből a kutatásból 2025 végén?

A semi-supervised preference optimization üzenete egyszerű: a szervezetek többsége nem azért nem jut el éles AI-ig, mert nincs adata, hanem mert nincs elég jó visszajelzése. Az SSPO azt mutatja meg, hogyan lehet ezt a szűk keresztmetszetet enyhíteni úgy, hogy közben nem engedjük el az emberi elvárásokat.

A kiskereskedelemben ez gyorsabban látszik a számokon (konverzió, retention). Az egészségügyben lassabb, de nagyobb a tét: biztonság, protokollhűség, magyarázhatóság. Én kifejezetten azt várom az SSPO-szemlélettől, hogy a következő 12–18 hónapban több olyan klinikai döntéstámogató megoldás jelenjen meg, amely kevesebb szakértői címkéből indul, mégis kontrolláltan fejlődik.

Ha most tervezel AI-t bevezetni (akár betegkommunikációban, triázsban, leletmagyarázatban), érdemes egy dolgot tisztázni már az elején: hol és milyen formában tudsz „preferencia” jellegű visszajelzést gyűjteni úgy, hogy az hosszú távon fenntartható legyen.

És a kérdés, ami szerintem 2026-ban minden vezetői workshopon elő fog kerülni: melyikből van több nálad – adatból, vagy valóban jó visszajelzésből?