A semi-supervised preference optimization kevĂ©s visszajelzĂ©sbĆl is tanĂt megbĂzhatĂł AI-t. NĂ©zd meg, mit jelent ez diagnosztikĂĄban Ă©s e-kereskedelemben.

Kevesebb visszajelzĂ©s, pontosabb AI-döntĂ©sek a gyĂłgyĂtĂĄsban
A legtöbb AI-projekt ott vĂ©rzik el, ahol a legdrĂĄgĂĄbb: minĆsĂ©gi visszajelzĂ©st kell gyƱjteni. Nem adatot â abbĂłl ĂĄltalĂĄban van bĆven â, hanem jĂł adatot: pĂĄros összehasonlĂtĂĄsokat, szakĂ©rtĆi Ă©rtĂ©kelĂ©seket, orvosi validĂĄlĂĄst, auditĂĄlhatĂł döntĂ©si indoklĂĄst. Ez kĂŒlönösen igaz az egĂ©szsĂ©gĂŒgyben, ahol egyetlen rosszul cĂmkĂ©zett eset is elĂ©g ahhoz, hogy bizalom, idĆ Ă©s pĂ©nz menjen a kukĂĄba.
A 2025 vĂ©gĂ©n megjelent kutatĂĄs, a Semi-Supervised Preference Optimization with Limited Feedback (SSPO) pont erre mond egy hatĂĄrozott âvan jobb Ăștâ vĂĄlaszt: kevĂ©s pĂĄrosĂtott (cĂmkĂ©zett) preferencia visszajelzĂ©sbĆl Ă©s sok âcsak Ășgy ott lĂ©vĆâ mintĂĄbĂłl is lehet Ășgy tanĂtani a modellt, hogy közben az emberi elvĂĄrĂĄsokhoz (preferenciĂĄkhoz) igazodjon. A szerzĆk ĂĄllĂtĂĄsa nem aprĂł: a mĂłdszerĂŒk szerint 1% cĂmkĂ©zett adat mellett is meg lehet verni olyan erĆs baseline-okat, amelyek 10% cĂmkĂ©zett adaton tanultak.
Ăs itt jön a csavar, ami miatt ez a tĂ©ma nem csak ML-kutatĂłknak Ă©rdekes. Ugyanez a gondolkodĂĄsmĂłd â korlĂĄtozott feedback + sok ânyersâ adat â pontosan azt a helyzetet Ărja le, amiben az egĂ©szsĂ©gĂŒgy Ă©s (meglepĆ mĂłdon) a kiskereskedelem Ă©s e-kereskedelem is Ă©l. A sorozatunkban eddig fĆleg szemĂ©lyre szabĂĄsrĂłl, kereslet-elĆrejelzĂ©srĆl Ă©s vĂĄsĂĄrlĂłi viselkedĂ©selemzĂ©srĆl volt szĂł; most megnĂ©zzĂŒk, hogyan lehet preferenciĂĄkat tanulni kevĂ©s visszajelzĂ©sbĆl, Ă©s miĂ©rt lehet ez hasznos egyszerre a diagnosztikĂĄban Ă©s a termĂ©kajĂĄnlĂĄsoknĂĄl.
Mit old meg az SSPO? A cĂmkĂ©zĂ©s a szƱk keresztmetszet
VĂĄlasz röviden: Az SSPO azt cĂ©lozza, hogy ne kelljen tömegesen drĂĄga pĂĄros preferencia-cĂmkĂ©ket gyĂĄrtani, mĂ©gis jĂłl igazodjon a modell az emberi elvĂĄrĂĄsokhoz.
A âpreferencia optimalizĂĄlĂĄsâ (preference optimization) a modern nyelvi modellek igazĂtĂĄsĂĄnak egyik alapja: kĂ©t vĂĄlasz közĂŒl megmondjuk, melyik a jobb (pĂĄros preferencia), Ă©s a modellt arra tanĂtjuk, hogy az ilyen âjobbâ vĂĄlaszokat adja. Ez szuper, csak Ă©pp:
- drĂĄga (szakĂ©rtĆi idĆ),
- lassĂș (szervezĂ©s, minĆsĂ©gbiztosĂtĂĄs),
- szƱkös (kevés jó annotåtor),
- Ă©rzĂ©keny (egĂ©szsĂ©gĂŒgyben adatvĂ©delmi Ă©s megfelelĆsĂ©gi korlĂĄtok).
A valĂłs Ă©letben viszont van egy mĂĄsik tĂpusĂș adat: unpaired mintĂĄk, pĂ©ldĂĄul modellvĂĄlaszok nagy halmaza, elĆzmĂ©nyek, jegyzetek, triĂĄzs-szövegek, betegportĂĄl ĂŒzenetek, call center leiratok â minden, ami sok, de nincs rĂĄĂrva, hogy âez a jobb, az a rosszabbâ.
Az SSPO lĂ©nyege: egy kevĂ©s cĂmkĂ©zett pĂĄros adatra tĂĄmaszkodva megprĂłbĂĄlja felcĂmkĂ©zni (pontosabban: pszeudo-cĂmkĂ©zni) a nagy, cĂmkĂ©zetlen halmazt, majd abbĂłl tanulni tovĂĄbb.
A kutatĂĄs egyik konkrĂ©t ĂgĂ©rete, ami megfoghatĂł
A paper egyik jĂłl idĂ©zhetĆ ĂĄllĂtĂĄsa:
Az SSPO egy optimĂĄlis âjutalomkĂŒszöbötâ (reward threshold) talĂĄl, ami nagy valĂłszĂnƱsĂ©ggel szĂ©tvĂĄlasztja a ânyertesâ Ă©s âvesztesâ vĂĄlaszokat, Ă©s ez alapot ad a pszeudo-cĂmkĂ©zĂ©shez.
Magyarul: nem random talĂĄlgatunk, hanem elvi alapon vĂĄlasztunk egy hatĂĄrt, Ă©s a kĂŒszöb fölötti vĂĄlaszokat âjĂłâ irĂĄnyba soroljuk. A szerzĆk kĂsĂ©rletei szerint Ăgy jelentĆsen nĆ az adathatĂ©konysĂĄg.
Hogyan lehet ebbĆl egĂ©szsĂ©gĂŒgyi tanulsĂĄg? âKorlĂĄtozott feedbackâ a klinikĂĄn
VĂĄlasz röviden: Az SSPO-szemlĂ©let segĂt ott, ahol kevĂ©s a szakĂ©rtĆi visszajelzĂ©s, de sok a nyers klinikai adat Ă©s interakciĂł, Ă©s a cĂ©l egy olyan modell, ami megbĂzhatĂłan a kĂvĂĄnt döntĂ©si stĂlust követi.
Az egĂ©szsĂ©gĂŒgyben a âpreferenciaâ ritkĂĄn csak annyi, hogy âez a vĂĄlasz szebbâ. InkĂĄbb ilyenek:
- A triĂĄzs ajĂĄnlĂĄs legyen konzervatĂv, ha Ă©letveszĂ©ly gyanĂșja van.
- A leletmagyarĂĄzat ne legyen megnyugtatĂł tĂșl korĂĄn, ha bizonytalan a kĂ©p.
- A terĂĄpiĂĄs javaslat vegye figyelembe a kontraindikĂĄciĂłkat Ă©s egyĂŒttszedett gyĂłgyszereket.
- A betegkommunikĂĄciĂł legyen empatikus, de ne ĂgĂ©rjen olyat, amit nem lehet.
Ezeket nagyon nehĂ©z teljes körƱen cĂmkĂ©zni. Viszont sok olyan jel van, ami implicit feedback:
- egy orvos ĂĄtĂrta-e a javaslatot,
- visszakérdezett-e a beteg,
- történt-e eszkalåció,
- mennyi idĆ mĂșlva kerĂŒlt sor kontrollra,
- milyen lett az outcome (pl. sĂŒrgĆssĂ©gi visszatĂ©rĂ©s 72 ĂłrĂĄn belĂŒl).
Az SSPO jellegƱ megközelĂtĂ©s ott lehet erĆs, ahol a kevĂ©s explicit preferencia-cĂmkĂ©t (szakĂ©rtĆi pĂĄros Ă©rtĂ©kelĂ©s) kombinĂĄljuk rengeteg implicit mintĂĄval, majd Ăłvatos, auditĂĄlhatĂł szabĂĄlyok mentĂ©n pszeudo-cĂmkĂ©zĂŒnk.
Diagnosztika vs. döntéståmogatås: mi a reålis cél 2025-12-ben?
Nekem az a tapasztalatom, hogy a legtöbb szervezet tĂșl gyorsan ugrik a âdiagnosztizĂĄljon az AIâ cĂ©lra. Sokkal jobb elsĆ lĂ©pĂ©s:
- differenciĂĄldiagnĂłzis javaslatok priorizĂĄlĂĄsa,
- kritikus vörös zåszlók kiemelése,
- betegĂșt-ajĂĄnlĂĄs (triĂĄzs),
- leletmagyaråzat a beteg nyelvén.
EzeknĂ©l a âpreferenciaâ jĂłl megfoghatĂł: melyik vĂĄlasz biztonsĂĄgosabb, következetesebb, megfelel-e a helyi protokollnak. Ăs itt a kevĂ©s, de jĂł szakĂ©rtĆi visszajelzĂ©s tĂ©nyleg aranyat Ă©r.
Mi köze ennek a kiskereskedelemhez és e-kereskedelemhez?
VĂĄlasz röviden: Ugyanaz a problĂ©ma: nagyon kevĂ©s a âtisztaâ visszajelzĂ©s, miközben ĂłriĂĄsi az esemĂ©nyadat, Ă©s a cĂ©l a preferĂĄlt döntĂ©sek megtanulĂĄsa (ajĂĄnlĂĄs, rangsorolĂĄs, kĂ©szlet, ĂŒgyfĂ©lszolgĂĄlat).
A sorozatunk fĂłkusza a âMestersĂ©ges intelligencia a kiskereskedelemben Ă©s e-kereskedelembenâ: ajĂĄnlĂłrendszerek, kereslet-elĆrejelzĂ©s, kĂ©szletkezelĂ©s, vĂĄsĂĄrlĂłi viselkedĂ©selemzĂ©s. EzeknĂ©l a preferenciĂĄk tipikusan:
- a vĂĄsĂĄrlĂł mit vĂĄlaszt a listĂĄbĂłl (implicit),
- mire kattint, mit görget tovåbb (implicit),
- mit kĂŒld vissza (negatĂv jel),
- milyen az ĂŒgyfĂ©lszolgĂĄlati elĂ©gedettsĂ©g (kĂ©sleltetett jel).
Az explicit, pĂĄros visszajelzĂ©s â âA vagy B ajĂĄnlĂĄs a jobb?â â ritka, mert senki nem akar kĂ©rdĆĂveket töltögetni. Az SSPO logikĂĄja viszont azt mondja: kĂ©szĂŒlj fel arra, hogy a döntĆ rĂ©sz cĂmkĂ©zetlen lesz, Ă©s Ă©pĂts olyan tanulĂĄsi folyamatot, ami ezt nem problĂ©mĂĄnak, hanem adottsĂĄgnak tekinti.
EgĂ©szsĂ©gĂŒgyi analĂłgia e-kereskedelmi nyelven
- Orvos-szakĂ©rtĆi pĂĄros Ă©rtĂ©kelĂ©s = kĂ©zzel validĂĄlt A/B rangsorok (drĂĄga)
- CĂmkĂ©zetlen vĂĄlaszhalmaz = logok, esemĂ©nyek, kosĂĄrelhagyĂĄs, chat-törtĂ©net (sok)
- Preferencia = âbiztonsĂĄgos Ă©s protokollhƱâ vs. âszĂ©p, de kockĂĄzatosâ (egĂ©szsĂ©gĂŒgy) vagy âprofitĂĄbilis, de irritĂĄlĂłâ vs. âhosszĂș tĂĄvon megtartĂłâ (e-kereskedelem)
A közös gond: milyen kĂŒszöb alapjĂĄn mondjuk egy esemĂ©nyre, hogy ânyertesâ vagy âvesztesâ? SSPO erre ad egy elmĂ©leti keretet (jutalomkĂŒszöb), amit kĂ©sĆbb implementĂĄciĂłban Ă©s governance-ben kell âföldre hozniâ.
Gyakorlati Ăștiterv: hogyan alkalmaznĂĄm SSPO-szemlĂ©lettel egĂ©szsĂ©gĂŒgyi AI-t
VĂĄlasz röviden: 5 lĂ©pĂ©sben: cĂ©lpreferenciĂĄk rögzĂtĂ©se â kevĂ©s, jĂł pĂĄros cĂmke â jutalommodell + kĂŒszöb â pszeudo-cĂmkĂ©zĂ©s â szigorĂș ellenĆrzĂ©s Ă©s visszamĂ©rĂ©s.
1) Fogalmazd meg a preferenciĂĄt Ășgy, hogy auditĂĄlhatĂł legyen
Nem elĂ©g annyi, hogy âjobb vĂĄlaszâ. PĂ©ldĂĄk egĂ©szsĂ©gĂŒgyben:
- âA vĂĄlasz akkor nyertes, ha tartalmaz legalĂĄbb 2 vörös zĂĄszlĂłt Ă©s javasol eszkalĂĄciĂłt X tĂŒnetnĂ©l.â
- âVesztes, ha gyĂłgyszeradagot javasol testsĂșly Ă©s vesefunkciĂł emlĂtĂ©se nĂ©lkĂŒl.â
E-kereskedelemben ugyanez:
- âNyertes, ha csökken a visszakĂŒldĂ©si arĂĄny Ă©s nĆ a 30 napos retention.â
2) GyƱjts kevĂ©s, de erĆs pĂĄrosĂtott preferencia cĂmkĂ©t
A kutatĂĄs ĂĄllĂtĂĄsa szerint a kevĂ©s cĂmke is sokat Ă©r, ha jĂł a mĂłdszer. A valĂłsĂĄgban a âjĂł cĂmkeâ jelentĂ©se:
- standardizĂĄlt rubrika,
- több annotåtor, egyezésmérés,
- edge case-ek kĂŒlön kezelĂ©se.
3) TanĂts jutalommodellt, majd vĂĄlassz kĂŒszöböt
Az SSPO kulcsa a kĂŒszöb, ami szĂ©tvĂĄlaszt. EgĂ©szsĂ©gĂŒgyben Ă©n ezt nem hagynĂĄm âcsak MLâ-re:
- kĂŒszöb a kĂŒlönbözĆ kockĂĄzati kategĂłriĂĄkra (alacsony/közepes/magas),
- kĂŒlön kĂŒszöb Ă©rzĂ©keny csoportokra (idĆs, gyermek, vĂĄrandĂłs),
- folyamatos drift-monitoring.
4) Pszeudo-cĂmkĂ©zz Ăłvatosan, Ă©s kezeld a bizonytalansĂĄgot
A pszeudo-cĂmkĂ©zĂ©snĂ©l kĂ©t szabĂĄlyt tartanĂ©k be:
- Csak a magas bizonyossĂĄgĂș mintĂĄkat cĂmkĂ©zd automatikusan.
- A âszĂŒrke zĂłnaâ menjen emberhez (aktĂv tanulĂĄs jelleggel).
Ez a logika a kiskereskedelemben is mƱködik: a ânagyon egyĂ©rtelmƱâ preferenciĂĄkbĂłl gĂ©p tanul, a vitĂĄs esetekbĆl jön a drĂĄga emberi feedback.
5) Mérj olyan metrikåt, ami nem csap be
EgĂ©szsĂ©gĂŒgyben nem elĂ©g a âtetszikâ jellegƱ Ă©rtĂ©kelĂ©s. Kell:
- biztonsĂĄgi incidensek arĂĄnya,
- téves megnyugtatås (false reassurance) proxyk,
- eszkalåciós megfelelés,
- szakĂ©rtĆi felĂŒlbĂrĂĄlat arĂĄnya.
E-kereskedelemben:
- visszakĂŒldĂ©s,
- kosĂĄrelhagyĂĄs,
- ĂŒgyfĂ©lszolgĂĄlati kontaktusok,
- hosszabb tĂĄvĂș CLV.
Gyakori kérdések, amiket mindenki feltesz (és jogosan)
âA pszeudo-cĂmkĂ©zĂ©s nem erĆsĂti fel a modell hibĂĄit?â
De, ha rosszul csinĂĄlod. A vĂ©dekezĂ©s hĂĄrom rĂ©szbĆl ĂĄll: magas kĂŒszöb, szĂŒrke zĂłna emberhez terelĂ©se, Ă©s rendszeres ĂșjracĂmkĂ©zĂ©s/ĂșjratanĂtĂĄs friss, valĂłdi preferencia-cĂmkĂ©kkel.
âMit jelent a âpreferenciaâ diagnosztikĂĄban?â
A legjobb vĂĄlasz: a döntĂ©si stĂlus Ă©s a biztonsĂĄgi korlĂĄtok preferenciĂĄja. PĂ©ldĂĄul: inkĂĄbb kĂ©rdezzen vissza, mint hogy talĂĄlgasson; inkĂĄbb eszkalĂĄljon, mint hogy bagatellizĂĄljon.
âEz csak nyelvi modellekre igaz?â
A paper nyelvi modellek alignmentjĂ©bĆl jön, de a gondolat â kevĂ©s cĂmke + sok cĂmkĂ©zetlen adat + kĂŒszöbös szeparĂĄlĂĄs â sok döntĂ©stĂĄmogatĂł pipeline-ban Ă©rtelmezhetĆ, ahol rangsorolĂĄs, vĂĄlasztĂĄs vagy policy-tanulĂĄs a cĂ©l.
Mit vigyĂ©l magaddal ebbĆl a kutatĂĄsbĂłl 2025 vĂ©gĂ©n?
A semi-supervised preference optimization ĂŒzenete egyszerƱ: a szervezetek többsĂ©ge nem azĂ©rt nem jut el Ă©les AI-ig, mert nincs adata, hanem mert nincs elĂ©g jĂł visszajelzĂ©se. Az SSPO azt mutatja meg, hogyan lehet ezt a szƱk keresztmetszetet enyhĂteni Ășgy, hogy közben nem engedjĂŒk el az emberi elvĂĄrĂĄsokat.
A kiskereskedelemben ez gyorsabban lĂĄtszik a szĂĄmokon (konverziĂł, retention). Az egĂ©szsĂ©gĂŒgyben lassabb, de nagyobb a tĂ©t: biztonsĂĄg, protokollhƱsĂ©g, magyarĂĄzhatĂłsĂĄg. Ăn kifejezetten azt vĂĄrom az SSPO-szemlĂ©lettĆl, hogy a következĆ 12â18 hĂłnapban több olyan klinikai döntĂ©stĂĄmogatĂł megoldĂĄs jelenjen meg, amely kevesebb szakĂ©rtĆi cĂmkĂ©bĆl indul, mĂ©gis kontrollĂĄltan fejlĆdik.
Ha most tervezel AI-t bevezetni (akĂĄr betegkommunikĂĄciĂłban, triĂĄzsban, leletmagyarĂĄzatban), Ă©rdemes egy dolgot tisztĂĄzni mĂĄr az elejĂ©n: hol Ă©s milyen formĂĄban tudsz âpreferenciaâ jellegƱ visszajelzĂ©st gyƱjteni Ășgy, hogy az hosszĂș tĂĄvon fenntarthatĂł legyen.
Ăs a kĂ©rdĂ©s, ami szerintem 2026-ban minden vezetĆi workshopon elĆ fog kerĂŒlni: melyikbĆl van több nĂĄlad â adatbĂłl, vagy valĂłban jĂł visszajelzĂ©sbĆl?