Kevesebb visszajelzés, pontosabb AI-döntések a gyógyítåsban

MestersĂ©ges intelligencia a kiskereskedelemben Ă©s e-kereskedelemben‱‱By 3L3C

A semi-supervised preference optimization kevĂ©s visszajelzĂ©sbƑl is tanĂ­t megbĂ­zhatĂł AI-t. NĂ©zd meg, mit jelent ez diagnosztikĂĄban Ă©s e-kereskedelemben.

SSPOpreferenciatanulĂĄsegĂ©szsĂ©gĂŒgyi AIajĂĄnlĂłrendszerekadatcĂ­mkĂ©zĂ©sMistral 7B
Share:

Featured image for Kevesebb visszajelzés, pontosabb AI-döntések a gyógyítåsban

Kevesebb visszajelzés, pontosabb AI-döntések a gyógyítåsban

A legtöbb AI-projekt ott vĂ©rzik el, ahol a legdrĂĄgĂĄbb: minƑsĂ©gi visszajelzĂ©st kell gyƱjteni. Nem adatot – abbĂłl ĂĄltalĂĄban van bƑven –, hanem jĂł adatot: pĂĄros összehasonlĂ­tĂĄsokat, szakĂ©rtƑi Ă©rtĂ©kelĂ©seket, orvosi validĂĄlĂĄst, auditĂĄlhatĂł döntĂ©si indoklĂĄst. Ez kĂŒlönösen igaz az egĂ©szsĂ©gĂŒgyben, ahol egyetlen rosszul cĂ­mkĂ©zett eset is elĂ©g ahhoz, hogy bizalom, idƑ Ă©s pĂ©nz menjen a kukĂĄba.

A 2025 vĂ©gĂ©n megjelent kutatĂĄs, a Semi-Supervised Preference Optimization with Limited Feedback (SSPO) pont erre mond egy hatĂĄrozott „van jobb Ășt” vĂĄlaszt: kevĂ©s pĂĄrosĂ­tott (cĂ­mkĂ©zett) preferencia visszajelzĂ©sbƑl Ă©s sok „csak Ășgy ott lĂ©vƑ” mintĂĄbĂłl is lehet Ășgy tanĂ­tani a modellt, hogy közben az emberi elvĂĄrĂĄsokhoz (preferenciĂĄkhoz) igazodjon. A szerzƑk ĂĄllĂ­tĂĄsa nem aprĂł: a mĂłdszerĂŒk szerint 1% cĂ­mkĂ©zett adat mellett is meg lehet verni olyan erƑs baseline-okat, amelyek 10% cĂ­mkĂ©zett adaton tanultak.

És itt jön a csavar, ami miatt ez a tĂ©ma nem csak ML-kutatĂłknak Ă©rdekes. Ugyanez a gondolkodĂĄsmĂłd – korlĂĄtozott feedback + sok „nyers” adat – pontosan azt a helyzetet Ă­rja le, amiben az egĂ©szsĂ©gĂŒgy Ă©s (meglepƑ mĂłdon) a kiskereskedelem Ă©s e-kereskedelem is Ă©l. A sorozatunkban eddig fƑleg szemĂ©lyre szabĂĄsrĂłl, kereslet-elƑrejelzĂ©srƑl Ă©s vĂĄsĂĄrlĂłi viselkedĂ©selemzĂ©srƑl volt szĂł; most megnĂ©zzĂŒk, hogyan lehet preferenciĂĄkat tanulni kevĂ©s visszajelzĂ©sbƑl, Ă©s miĂ©rt lehet ez hasznos egyszerre a diagnosztikĂĄban Ă©s a termĂ©kajĂĄnlĂĄsoknĂĄl.

Mit old meg az SSPO? A címkézés a szƱk keresztmetszet

Vålasz röviden: Az SSPO azt célozza, hogy ne kelljen tömegesen dråga påros preferencia-címkéket gyårtani, mégis jól igazodjon a modell az emberi elvåråsokhoz.

A „preferencia optimalizĂĄlĂĄs” (preference optimization) a modern nyelvi modellek igazĂ­tĂĄsĂĄnak egyik alapja: kĂ©t vĂĄlasz közĂŒl megmondjuk, melyik a jobb (pĂĄros preferencia), Ă©s a modellt arra tanĂ­tjuk, hogy az ilyen „jobb” vĂĄlaszokat adja. Ez szuper, csak Ă©pp:

  • drĂĄga (szakĂ©rtƑi idƑ),
  • lassĂș (szervezĂ©s, minƑsĂ©gbiztosĂ­tĂĄs),
  • szƱkös (kevĂ©s jĂł annotĂĄtor),
  • Ă©rzĂ©keny (egĂ©szsĂ©gĂŒgyben adatvĂ©delmi Ă©s megfelelƑsĂ©gi korlĂĄtok).

A valĂłs Ă©letben viszont van egy mĂĄsik tĂ­pusĂș adat: unpaired mintĂĄk, pĂ©ldĂĄul modellvĂĄlaszok nagy halmaza, elƑzmĂ©nyek, jegyzetek, triĂĄzs-szövegek, betegportĂĄl ĂŒzenetek, call center leiratok – minden, ami sok, de nincs rĂĄĂ­rva, hogy „ez a jobb, az a rosszabb”.

Az SSPO lényege: egy kevés címkézett påros adatra tåmaszkodva megpróbålja felcímkézni (pontosabban: pszeudo-címkézni) a nagy, címkézetlen halmazt, majd abból tanulni tovåbb.

A kutatås egyik konkrét ígérete, ami megfogható

A paper egyik jĂłl idĂ©zhetƑ ĂĄllĂ­tĂĄsa:

Az SSPO egy optimĂĄlis „jutalomkĂŒszöböt” (reward threshold) talĂĄl, ami nagy valĂłszĂ­nƱsĂ©ggel szĂ©tvĂĄlasztja a „nyertes” Ă©s „vesztes” vĂĄlaszokat, Ă©s ez alapot ad a pszeudo-cĂ­mkĂ©zĂ©shez.

Magyarul: nem random talĂĄlgatunk, hanem elvi alapon vĂĄlasztunk egy hatĂĄrt, Ă©s a kĂŒszöb fölötti vĂĄlaszokat „jó” irĂĄnyba soroljuk. A szerzƑk kĂ­sĂ©rletei szerint Ă­gy jelentƑsen nƑ az adathatĂ©konysĂĄg.

Hogyan lehet ebbƑl egĂ©szsĂ©gĂŒgyi tanulsĂĄg? „KorlĂĄtozott feedback” a klinikĂĄn

VĂĄlasz röviden: Az SSPO-szemlĂ©let segĂ­t ott, ahol kevĂ©s a szakĂ©rtƑi visszajelzĂ©s, de sok a nyers klinikai adat Ă©s interakciĂł, Ă©s a cĂ©l egy olyan modell, ami megbĂ­zhatĂłan a kĂ­vĂĄnt döntĂ©si stĂ­lust követi.

Az egĂ©szsĂ©gĂŒgyben a „preferencia” ritkĂĄn csak annyi, hogy „ez a vĂĄlasz szebb”. InkĂĄbb ilyenek:

  • A triĂĄzs ajĂĄnlĂĄs legyen konzervatĂ­v, ha Ă©letveszĂ©ly gyanĂșja van.
  • A leletmagyarĂĄzat ne legyen megnyugtatĂł tĂșl korĂĄn, ha bizonytalan a kĂ©p.
  • A terĂĄpiĂĄs javaslat vegye figyelembe a kontraindikĂĄciĂłkat Ă©s egyĂŒttszedett gyĂłgyszereket.
  • A betegkommunikĂĄciĂł legyen empatikus, de ne Ă­gĂ©rjen olyat, amit nem lehet.

Ezeket nagyon nehéz teljes körƱen címkézni. Viszont sok olyan jel van, ami implicit feedback:

  • egy orvos ĂĄtĂ­rta-e a javaslatot,
  • visszakĂ©rdezett-e a beteg,
  • törtĂ©nt-e eszkalĂĄciĂł,
  • mennyi idƑ mĂșlva kerĂŒlt sor kontrollra,
  • milyen lett az outcome (pl. sĂŒrgƑssĂ©gi visszatĂ©rĂ©s 72 ĂłrĂĄn belĂŒl).

Az SSPO jellegƱ megközelĂ­tĂ©s ott lehet erƑs, ahol a kevĂ©s explicit preferencia-cĂ­mkĂ©t (szakĂ©rtƑi pĂĄros Ă©rtĂ©kelĂ©s) kombinĂĄljuk rengeteg implicit mintĂĄval, majd Ăłvatos, auditĂĄlhatĂł szabĂĄlyok mentĂ©n pszeudo-cĂ­mkĂ©zĂŒnk.

Diagnosztika vs. döntéståmogatås: mi a reålis cél 2025-12-ben?

Nekem az a tapasztalatom, hogy a legtöbb szervezet tĂșl gyorsan ugrik a „diagnosztizĂĄljon az AI” cĂ©lra. Sokkal jobb elsƑ lĂ©pĂ©s:

  • differenciĂĄldiagnĂłzis javaslatok priorizĂĄlĂĄsa,
  • kritikus vörös zĂĄszlĂłk kiemelĂ©se,
  • betegĂșt-ajĂĄnlĂĄs (triĂĄzs),
  • leletmagyarĂĄzat a beteg nyelvĂ©n.

EzeknĂ©l a „preferencia” jĂłl megfoghatĂł: melyik vĂĄlasz biztonsĂĄgosabb, következetesebb, megfelel-e a helyi protokollnak. És itt a kevĂ©s, de jĂł szakĂ©rtƑi visszajelzĂ©s tĂ©nyleg aranyat Ă©r.

Mi köze ennek a kiskereskedelemhez és e-kereskedelemhez?

VĂĄlasz röviden: Ugyanaz a problĂ©ma: nagyon kevĂ©s a „tiszta” visszajelzĂ©s, miközben ĂłriĂĄsi az esemĂ©nyadat, Ă©s a cĂ©l a preferĂĄlt döntĂ©sek megtanulĂĄsa (ajĂĄnlĂĄs, rangsorolĂĄs, kĂ©szlet, ĂŒgyfĂ©lszolgĂĄlat).

A sorozatunk fĂłkusza a „MestersĂ©ges intelligencia a kiskereskedelemben Ă©s e-kereskedelemben”: ajĂĄnlĂłrendszerek, kereslet-elƑrejelzĂ©s, kĂ©szletkezelĂ©s, vĂĄsĂĄrlĂłi viselkedĂ©selemzĂ©s. EzeknĂ©l a preferenciĂĄk tipikusan:

  • a vĂĄsĂĄrlĂł mit vĂĄlaszt a listĂĄbĂłl (implicit),
  • mire kattint, mit görget tovĂĄbb (implicit),
  • mit kĂŒld vissza (negatĂ­v jel),
  • milyen az ĂŒgyfĂ©lszolgĂĄlati elĂ©gedettsĂ©g (kĂ©sleltetett jel).

Az explicit, pĂĄros visszajelzĂ©s – „A vagy B ajĂĄnlĂĄs a jobb?” – ritka, mert senki nem akar kĂ©rdƑíveket töltögetni. Az SSPO logikĂĄja viszont azt mondja: kĂ©szĂŒlj fel arra, hogy a döntƑ rĂ©sz cĂ­mkĂ©zetlen lesz, Ă©s Ă©pĂ­ts olyan tanulĂĄsi folyamatot, ami ezt nem problĂ©mĂĄnak, hanem adottsĂĄgnak tekinti.

EgĂ©szsĂ©gĂŒgyi analĂłgia e-kereskedelmi nyelven

  • Orvos-szakĂ©rtƑi pĂĄros Ă©rtĂ©kelĂ©s = kĂ©zzel validĂĄlt A/B rangsorok (drĂĄga)
  • CĂ­mkĂ©zetlen vĂĄlaszhalmaz = logok, esemĂ©nyek, kosĂĄrelhagyĂĄs, chat-törtĂ©net (sok)
  • Preferencia = „biztonsĂĄgos Ă©s protokollhĆ±â€ vs. „szĂ©p, de kockĂĄzatos” (egĂ©szsĂ©gĂŒgy) vagy „profitĂĄbilis, de irritĂĄló” vs. „hosszĂș tĂĄvon megtartó” (e-kereskedelem)

A közös gond: milyen kĂŒszöb alapjĂĄn mondjuk egy esemĂ©nyre, hogy „nyertes” vagy „vesztes”? SSPO erre ad egy elmĂ©leti keretet (jutalomkĂŒszöb), amit kĂ©sƑbb implementĂĄciĂłban Ă©s governance-ben kell „földre hozni”.

Gyakorlati Ăștiterv: hogyan alkalmaznĂĄm SSPO-szemlĂ©lettel egĂ©szsĂ©gĂŒgyi AI-t

VĂĄlasz röviden: 5 lĂ©pĂ©sben: cĂ©lpreferenciĂĄk rögzĂ­tĂ©se → kevĂ©s, jĂł pĂĄros cĂ­mke → jutalommodell + kĂŒszöb → pszeudo-cĂ­mkĂ©zĂ©s → szigorĂș ellenƑrzĂ©s Ă©s visszamĂ©rĂ©s.

1) Fogalmazd meg a preferenciĂĄt Ășgy, hogy auditĂĄlhatĂł legyen

Nem elĂ©g annyi, hogy „jobb vĂĄlasz”. PĂ©ldĂĄk egĂ©szsĂ©gĂŒgyben:

  • „A vĂĄlasz akkor nyertes, ha tartalmaz legalĂĄbb 2 vörös zĂĄszlĂłt Ă©s javasol eszkalĂĄciĂłt X tĂŒnetnĂ©l.”
  • „Vesztes, ha gyĂłgyszeradagot javasol testsĂșly Ă©s vesefunkciĂł emlĂ­tĂ©se nĂ©lkĂŒl.”

E-kereskedelemben ugyanez:

  • „Nyertes, ha csökken a visszakĂŒldĂ©si arĂĄny Ă©s nƑ a 30 napos retention.”

2) GyƱjts kevĂ©s, de erƑs pĂĄrosĂ­tott preferencia cĂ­mkĂ©t

A kutatĂĄs ĂĄllĂ­tĂĄsa szerint a kevĂ©s cĂ­mke is sokat Ă©r, ha jĂł a mĂłdszer. A valĂłsĂĄgban a „jĂł cĂ­mke” jelentĂ©se:

  • standardizĂĄlt rubrika,
  • több annotĂĄtor, egyezĂ©smĂ©rĂ©s,
  • edge case-ek kĂŒlön kezelĂ©se.

3) TanĂ­ts jutalommodellt, majd vĂĄlassz kĂŒszöböt

Az SSPO kulcsa a kĂŒszöb, ami szĂ©tvĂĄlaszt. EgĂ©szsĂ©gĂŒgyben Ă©n ezt nem hagynĂĄm „csak ML”-re:

  • kĂŒszöb a kĂŒlönbözƑ kockĂĄzati kategĂłriĂĄkra (alacsony/közepes/magas),
  • kĂŒlön kĂŒszöb Ă©rzĂ©keny csoportokra (idƑs, gyermek, vĂĄrandĂłs),
  • folyamatos drift-monitoring.

4) Pszeudo-címkézz óvatosan, és kezeld a bizonytalansågot

A pszeudo-címkézésnél két szabålyt tartanék be:

  • Csak a magas bizonyossĂĄgĂș mintĂĄkat cĂ­mkĂ©zd automatikusan.
  • A „szĂŒrke zĂłna” menjen emberhez (aktĂ­v tanulĂĄs jelleggel).

Ez a logika a kiskereskedelemben is mƱködik: a „nagyon egyĂ©rtelmĆ±â€ preferenciĂĄkbĂłl gĂ©p tanul, a vitĂĄs esetekbƑl jön a drĂĄga emberi feedback.

5) Mérj olyan metrikåt, ami nem csap be

EgĂ©szsĂ©gĂŒgyben nem elĂ©g a „tetszik” jellegƱ Ă©rtĂ©kelĂ©s. Kell:

  • biztonsĂĄgi incidensek arĂĄnya,
  • tĂ©ves megnyugtatĂĄs (false reassurance) proxyk,
  • eszkalĂĄciĂłs megfelelĂ©s,
  • szakĂ©rtƑi felĂŒlbĂ­rĂĄlat arĂĄnya.

E-kereskedelemben:

  • visszakĂŒldĂ©s,
  • kosĂĄrelhagyĂĄs,
  • ĂŒgyfĂ©lszolgĂĄlati kontaktusok,
  • hosszabb tĂĄvĂș CLV.

Gyakori kérdések, amiket mindenki feltesz (és jogosan)

„A pszeudo-cĂ­mkĂ©zĂ©s nem erƑsĂ­ti fel a modell hibĂĄit?”

De, ha rosszul csinĂĄlod. A vĂ©dekezĂ©s hĂĄrom rĂ©szbƑl ĂĄll: magas kĂŒszöb, szĂŒrke zĂłna emberhez terelĂ©se, Ă©s rendszeres ĂșjracĂ­mkĂ©zĂ©s/ĂșjratanĂ­tĂĄs friss, valĂłdi preferencia-cĂ­mkĂ©kkel.

„Mit jelent a ‘preferencia’ diagnosztikában?”

A legjobb vålasz: a döntési stílus és a biztonsågi korlåtok preferenciåja. Példåul: inkåbb kérdezzen vissza, mint hogy talålgasson; inkåbb eszkalåljon, mint hogy bagatellizåljon.

„Ez csak nyelvi modellekre igaz?”

A paper nyelvi modellek alignmentjĂ©bƑl jön, de a gondolat – kevĂ©s cĂ­mke + sok cĂ­mkĂ©zetlen adat + kĂŒszöbös szeparĂĄlĂĄs – sok döntĂ©stĂĄmogatĂł pipeline-ban Ă©rtelmezhetƑ, ahol rangsorolĂĄs, vĂĄlasztĂĄs vagy policy-tanulĂĄs a cĂ©l.

Mit vigyĂ©l magaddal ebbƑl a kutatĂĄsbĂłl 2025 vĂ©gĂ©n?

A semi-supervised preference optimization ĂŒzenete egyszerƱ: a szervezetek többsĂ©ge nem azĂ©rt nem jut el Ă©les AI-ig, mert nincs adata, hanem mert nincs elĂ©g jĂł visszajelzĂ©se. Az SSPO azt mutatja meg, hogyan lehet ezt a szƱk keresztmetszetet enyhĂ­teni Ășgy, hogy közben nem engedjĂŒk el az emberi elvĂĄrĂĄsokat.

A kiskereskedelemben ez gyorsabban lĂĄtszik a szĂĄmokon (konverziĂł, retention). Az egĂ©szsĂ©gĂŒgyben lassabb, de nagyobb a tĂ©t: biztonsĂĄg, protokollhƱsĂ©g, magyarĂĄzhatĂłsĂĄg. Én kifejezetten azt vĂĄrom az SSPO-szemlĂ©lettƑl, hogy a következƑ 12–18 hĂłnapban több olyan klinikai döntĂ©stĂĄmogatĂł megoldĂĄs jelenjen meg, amely kevesebb szakĂ©rtƑi cĂ­mkĂ©bƑl indul, mĂ©gis kontrollĂĄltan fejlƑdik.

Ha most tervezel AI-t bevezetni (akĂĄr betegkommunikĂĄciĂłban, triĂĄzsban, leletmagyarĂĄzatban), Ă©rdemes egy dolgot tisztĂĄzni mĂĄr az elejĂ©n: hol Ă©s milyen formĂĄban tudsz „preferencia” jellegƱ visszajelzĂ©st gyƱjteni Ășgy, hogy az hosszĂș tĂĄvon fenntarthatĂł legyen.

És a kĂ©rdĂ©s, ami szerintem 2026-ban minden vezetƑi workshopon elƑ fog kerĂŒlni: melyikbƑl van több nĂĄlad – adatbĂłl, vagy valĂłban jĂł visszajelzĂ©sbƑl?