A semi-supervised preference optimization kevés visszajelzésből is tanít megbízható AI-t. Nézd meg, mit jelent ez diagnosztikában és e-kereskedelemben.

Kevesebb visszajelzés, pontosabb AI-döntések a gyógyításban
A legtöbb AI-projekt ott vérzik el, ahol a legdrágább: minőségi visszajelzést kell gyűjteni. Nem adatot – abból általában van bőven –, hanem jó adatot: páros összehasonlításokat, szakértői értékeléseket, orvosi validálást, auditálható döntési indoklást. Ez különösen igaz az egészségügyben, ahol egyetlen rosszul címkézett eset is elég ahhoz, hogy bizalom, idő és pénz menjen a kukába.
A 2025 végén megjelent kutatás, a Semi-Supervised Preference Optimization with Limited Feedback (SSPO) pont erre mond egy határozott „van jobb út” választ: kevés párosított (címkézett) preferencia visszajelzésből és sok „csak úgy ott lévő” mintából is lehet úgy tanítani a modellt, hogy közben az emberi elvárásokhoz (preferenciákhoz) igazodjon. A szerzők állítása nem apró: a módszerük szerint 1% címkézett adat mellett is meg lehet verni olyan erős baseline-okat, amelyek 10% címkézett adaton tanultak.
És itt jön a csavar, ami miatt ez a téma nem csak ML-kutatóknak érdekes. Ugyanez a gondolkodásmód – korlátozott feedback + sok „nyers” adat – pontosan azt a helyzetet írja le, amiben az egészségügy és (meglepő módon) a kiskereskedelem és e-kereskedelem is él. A sorozatunkban eddig főleg személyre szabásról, kereslet-előrejelzésről és vásárlói viselkedéselemzésről volt szó; most megnézzük, hogyan lehet preferenciákat tanulni kevés visszajelzésből, és miért lehet ez hasznos egyszerre a diagnosztikában és a termékajánlásoknál.
Mit old meg az SSPO? A címkézés a szűk keresztmetszet
Válasz röviden: Az SSPO azt célozza, hogy ne kelljen tömegesen drága páros preferencia-címkéket gyártani, mégis jól igazodjon a modell az emberi elvárásokhoz.
A „preferencia optimalizálás” (preference optimization) a modern nyelvi modellek igazításának egyik alapja: két válasz közül megmondjuk, melyik a jobb (páros preferencia), és a modellt arra tanítjuk, hogy az ilyen „jobb” válaszokat adja. Ez szuper, csak épp:
- drága (szakértői idő),
- lassú (szervezés, minőségbiztosítás),
- szűkös (kevés jó annotátor),
- érzékeny (egészségügyben adatvédelmi és megfelelőségi korlátok).
A valós életben viszont van egy másik típusú adat: unpaired minták, például modellválaszok nagy halmaza, előzmények, jegyzetek, triázs-szövegek, betegportál üzenetek, call center leiratok – minden, ami sok, de nincs ráírva, hogy „ez a jobb, az a rosszabb”.
Az SSPO lényege: egy kevés címkézett páros adatra támaszkodva megpróbálja felcímkézni (pontosabban: pszeudo-címkézni) a nagy, címkézetlen halmazt, majd abból tanulni tovább.
A kutatás egyik konkrét ígérete, ami megfogható
A paper egyik jól idézhető állítása:
Az SSPO egy optimális „jutalomküszöböt” (reward threshold) talál, ami nagy valószínűséggel szétválasztja a „nyertes” és „vesztes” válaszokat, és ez alapot ad a pszeudo-címkézéshez.
Magyarul: nem random találgatunk, hanem elvi alapon választunk egy határt, és a küszöb fölötti válaszokat „jó” irányba soroljuk. A szerzők kísérletei szerint így jelentősen nő az adathatékonyság.
Hogyan lehet ebből egészségügyi tanulság? „Korlátozott feedback” a klinikán
Válasz röviden: Az SSPO-szemlélet segít ott, ahol kevés a szakértői visszajelzés, de sok a nyers klinikai adat és interakció, és a cél egy olyan modell, ami megbízhatóan a kívánt döntési stílust követi.
Az egészségügyben a „preferencia” ritkán csak annyi, hogy „ez a válasz szebb”. Inkább ilyenek:
- A triázs ajánlás legyen konzervatív, ha életveszély gyanúja van.
- A leletmagyarázat ne legyen megnyugtató túl korán, ha bizonytalan a kép.
- A terápiás javaslat vegye figyelembe a kontraindikációkat és együttszedett gyógyszereket.
- A betegkommunikáció legyen empatikus, de ne ígérjen olyat, amit nem lehet.
Ezeket nagyon nehéz teljes körűen címkézni. Viszont sok olyan jel van, ami implicit feedback:
- egy orvos átírta-e a javaslatot,
- visszakérdezett-e a beteg,
- történt-e eszkaláció,
- mennyi idő múlva került sor kontrollra,
- milyen lett az outcome (pl. sürgősségi visszatérés 72 órán belül).
Az SSPO jellegű megközelítés ott lehet erős, ahol a kevés explicit preferencia-címkét (szakértői páros értékelés) kombináljuk rengeteg implicit mintával, majd óvatos, auditálható szabályok mentén pszeudo-címkézünk.
Diagnosztika vs. döntéstámogatás: mi a reális cél 2025-12-ben?
Nekem az a tapasztalatom, hogy a legtöbb szervezet túl gyorsan ugrik a „diagnosztizáljon az AI” célra. Sokkal jobb első lépés:
- differenciáldiagnózis javaslatok priorizálása,
- kritikus vörös zászlók kiemelése,
- betegút-ajánlás (triázs),
- leletmagyarázat a beteg nyelvén.
Ezeknél a „preferencia” jól megfogható: melyik válasz biztonságosabb, következetesebb, megfelel-e a helyi protokollnak. És itt a kevés, de jó szakértői visszajelzés tényleg aranyat ér.
Mi köze ennek a kiskereskedelemhez és e-kereskedelemhez?
Válasz röviden: Ugyanaz a probléma: nagyon kevés a „tiszta” visszajelzés, miközben óriási az eseményadat, és a cél a preferált döntések megtanulása (ajánlás, rangsorolás, készlet, ügyfélszolgálat).
A sorozatunk fókusza a „Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben”: ajánlórendszerek, kereslet-előrejelzés, készletkezelés, vásárlói viselkedéselemzés. Ezeknél a preferenciák tipikusan:
- a vásárló mit választ a listából (implicit),
- mire kattint, mit görget tovább (implicit),
- mit küld vissza (negatív jel),
- milyen az ügyfélszolgálati elégedettség (késleltetett jel).
Az explicit, páros visszajelzés – „A vagy B ajánlás a jobb?” – ritka, mert senki nem akar kérdőíveket töltögetni. Az SSPO logikája viszont azt mondja: készülj fel arra, hogy a döntő rész címkézetlen lesz, és építs olyan tanulási folyamatot, ami ezt nem problémának, hanem adottságnak tekinti.
Egészségügyi analógia e-kereskedelmi nyelven
- Orvos-szakértői páros értékelés = kézzel validált A/B rangsorok (drága)
- Címkézetlen válaszhalmaz = logok, események, kosárelhagyás, chat-történet (sok)
- Preferencia = „biztonságos és protokollhű” vs. „szép, de kockázatos” (egészségügy) vagy „profitábilis, de irritáló” vs. „hosszú távon megtartó” (e-kereskedelem)
A közös gond: milyen küszöb alapján mondjuk egy eseményre, hogy „nyertes” vagy „vesztes”? SSPO erre ad egy elméleti keretet (jutalomküszöb), amit később implementációban és governance-ben kell „földre hozni”.
Gyakorlati útiterv: hogyan alkalmaznám SSPO-szemlélettel egészségügyi AI-t
Válasz röviden: 5 lépésben: célpreferenciák rögzítése → kevés, jó páros címke → jutalommodell + küszöb → pszeudo-címkézés → szigorú ellenőrzés és visszamérés.
1) Fogalmazd meg a preferenciát úgy, hogy auditálható legyen
Nem elég annyi, hogy „jobb válasz”. Példák egészségügyben:
- „A válasz akkor nyertes, ha tartalmaz legalább 2 vörös zászlót és javasol eszkalációt X tünetnél.”
- „Vesztes, ha gyógyszeradagot javasol testsúly és vesefunkció említése nélkül.”
E-kereskedelemben ugyanez:
- „Nyertes, ha csökken a visszaküldési arány és nő a 30 napos retention.”
2) Gyűjts kevés, de erős párosított preferencia címkét
A kutatás állítása szerint a kevés címke is sokat ér, ha jó a módszer. A valóságban a „jó címke” jelentése:
- standardizált rubrika,
- több annotátor, egyezésmérés,
- edge case-ek külön kezelése.
3) Taníts jutalommodellt, majd válassz küszöböt
Az SSPO kulcsa a küszöb, ami szétválaszt. Egészségügyben én ezt nem hagynám „csak ML”-re:
- küszöb a különböző kockázati kategóriákra (alacsony/közepes/magas),
- külön küszöb érzékeny csoportokra (idős, gyermek, várandós),
- folyamatos drift-monitoring.
4) Pszeudo-címkézz óvatosan, és kezeld a bizonytalanságot
A pszeudo-címkézésnél két szabályt tartanék be:
- Csak a magas bizonyosságú mintákat címkézd automatikusan.
- A „szürke zóna” menjen emberhez (aktív tanulás jelleggel).
Ez a logika a kiskereskedelemben is működik: a „nagyon egyértelmű” preferenciákból gép tanul, a vitás esetekből jön a drága emberi feedback.
5) Mérj olyan metrikát, ami nem csap be
Egészségügyben nem elég a „tetszik” jellegű értékelés. Kell:
- biztonsági incidensek aránya,
- téves megnyugtatás (false reassurance) proxyk,
- eszkalációs megfelelés,
- szakértői felülbírálat aránya.
E-kereskedelemben:
- visszaküldés,
- kosárelhagyás,
- ügyfélszolgálati kontaktusok,
- hosszabb távú CLV.
Gyakori kérdések, amiket mindenki feltesz (és jogosan)
„A pszeudo-címkézés nem erősíti fel a modell hibáit?”
De, ha rosszul csinálod. A védekezés három részből áll: magas küszöb, szürke zóna emberhez terelése, és rendszeres újracímkézés/újratanítás friss, valódi preferencia-címkékkel.
„Mit jelent a ‘preferencia’ diagnosztikában?”
A legjobb válasz: a döntési stílus és a biztonsági korlátok preferenciája. Például: inkább kérdezzen vissza, mint hogy találgasson; inkább eszkaláljon, mint hogy bagatellizáljon.
„Ez csak nyelvi modellekre igaz?”
A paper nyelvi modellek alignmentjéből jön, de a gondolat – kevés címke + sok címkézetlen adat + küszöbös szeparálás – sok döntéstámogató pipeline-ban értelmezhető, ahol rangsorolás, választás vagy policy-tanulás a cél.
Mit vigyél magaddal ebből a kutatásból 2025 végén?
A semi-supervised preference optimization üzenete egyszerű: a szervezetek többsége nem azért nem jut el éles AI-ig, mert nincs adata, hanem mert nincs elég jó visszajelzése. Az SSPO azt mutatja meg, hogyan lehet ezt a szűk keresztmetszetet enyhíteni úgy, hogy közben nem engedjük el az emberi elvárásokat.
A kiskereskedelemben ez gyorsabban látszik a számokon (konverzió, retention). Az egészségügyben lassabb, de nagyobb a tét: biztonság, protokollhűség, magyarázhatóság. Én kifejezetten azt várom az SSPO-szemlélettől, hogy a következő 12–18 hónapban több olyan klinikai döntéstámogató megoldás jelenjen meg, amely kevesebb szakértői címkéből indul, mégis kontrolláltan fejlődik.
Ha most tervezel AI-t bevezetni (akár betegkommunikációban, triázsban, leletmagyarázatban), érdemes egy dolgot tisztázni már az elején: hol és milyen formában tudsz „preferencia” jellegű visszajelzést gyűjteni úgy, hogy az hosszú távon fenntartható legyen.
És a kérdés, ami szerintem 2026-ban minden vezetői workshopon elő fog kerülni: melyikből van több nálad – adatból, vagy valóban jó visszajelzésből?