Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben•2025. december 22.•By 3L3C

Kalibrált diszambiguálás részleges címkéknél: mit ad a CDL a kiskereskedelmi és egészségügyi AI-rendszerek megbízhatóságához?

kalibrációweak supervisionpartial-label learningmulti-instance learninge-kereskedelemegészségügyi AI

Featured image for Kalibrált AI-döntések részleges címkékkel: CDL

Kalibrált AI-döntések részleges címkékkel: CDL

A legtöbb AI-projekt ott vérzik el, ahol a valóság elkezdődik: a címkék nem tiszták. A kiskereskedelemben és e-kereskedelemben ez napi rutin: egy terméket több kategóriába is bekattintanak, az ügyfélszolgálati jegyeket kapkodva címkézik, a csalásjelzéseket „gyanús” megjegyzéssel továbbítják, a visszaküldési okok pedig félig-meddig találgatások. Az egészségügyben ugyanez még élesebb: hiányos anamnézis, ellentmondó lelet, több lehetséges diagnózis.

2025 végén (ünnepi csúcsszezon, akciók, készletkockázatok) a döntések tempója felgyorsul, miközben az adatok minősége gyakran romlik. Ilyenkor nem elég, ha a modell „többnyire eltalálja”. A vezetők és szakértők azt kérdezik: mennyire bízhatok a modell valószínűségeiben? Ha a rendszer 90%-os bizonyosságot mond, tényleg közel 90% az esély? Ez a kalibráció kérdése.

Egy friss kutatás (Tang, Yang, Zhang, Zhang; 2025.12) a multi-instance partial-label learning (MIPL) területén pont erre ad egy praktikus választ: egy plug-and-play jellegű, vagyis könnyen beépíthető veszteségfüggvényt javasolnak, a Calibratable Disambiguation Loss-t (CDL), ami egyszerre célozza az osztályozási pontosságot és a valószínűségek megbízhatóságát.

Miért pont a „részleges címkézés” a kiskereskedelmi AI Achilles-sarka?

Válasz röviden: mert a kiskereskedelmi adatok nagy része nem „tiszta igazság”, hanem jelzések halmaza.

A klasszikus felügyelt tanulás azt feltételezi, hogy minden mintához egy korrekt címke tartozik. A valóságban viszont gyakori a partial label helyzet: a rendszer tudja, hogy a helyes címke valahol egy jelölthalmazban van, de nem tudja, melyik.

Konkrét e-kereskedelmi példák:

Termékkategorizálás: a beszállító „sport / cipő / futócipő” közül kettőt megad, de nem biztos, melyik a legjobb végcímke.
Ügyfélszolgálati ticket osztályozás: a kolléga 2–3 témát bepipál („szállítás”, „fizetés”, „kupon”), mert nem akar rosszat mondani.
Fraud/chargeback triázs: a címke gyakran utólag tisztul, a korai jelölések sokszor csak „lehetséges csalás”.
Visszaküldési okok: a vásárló szövege alapján több ok is illik, és a rendszer csak jelölteket tud adni.

Ezekben a feladatokban a modellnek diszambiguálnia kell: a jelöltek közül kiválasztani (vagy súlyozni) a legvalószínűbb igaz címkét.

És itt jön a gond: sok meglévő MIPL/PLL módszer képes javítani a top-1 pontosságot, de közben rosszul kalibrált valószínűségeket ad. Az eredmény: túl magabiztos modell, ami a gyakorlatban drága hibákat okoz (rossz készletallokáció, rosszul kezelt reklamáció, túl agresszív fraud-blokkolás).

Mit jelent a kalibráció, és miért kell komolyan venni?

Válasz röviden: a kalibráció azt méri, hogy a modell által mondott valószínűség mennyire „igazmondó”.

Egy jól kalibrált modellnél azok a döntések, amelyekre 0,8 valószínűséget mond, hosszú távon tényleg kb. 80%-ban helyesek. Ez kiskereskedelemben nem esztétika, hanem üzleti vezérlőjel.

Három tipikus hely, ahol a kalibráció pénzzé válik:

Küszöbök és automatizáció: ha 0,95 felett automatikusan kategorizálsz, kalibráció nélkül vagy túl sokat automatizálsz (hibával), vagy túl keveset (drágán kézimunkázol).
Kockázat-alapú folyamatok: fraud, készlethiány, SLA-s ügyek – mind küszöbökön és költségfüggvényeken él.
Ember-a-hurokban (HITL): a bizonytalan eseteket emberhez irányítod. Ehhez valószínűségek kellenek, amikben lehet bízni.

Az egészségügyben ugyanez életkritikus, ezért a kampányunk („Mesterséges intelligencia az egészségügyben”) szempontjából különösen releváns: egy diagnosztikai modellnél nem mindegy, hogy a 70% mit jelent a valóságban.

MIPL a gyakorlatban: több „instance”, több jelölt címke

Válasz röviden: a MIPL akkor hasznos, amikor egy döntést több rész-megfigyelésből kell összerakni, miközben a címke sem egyértelmű.

A MIPL két „valóságproblémát” kezel egyszerre:

Multi-instance (MIL): egy „zsákban” (bag) több instance van, de a címke a zsák szintjén adott. Példa: egy rendeléshez több termék és interakció tartozik.
Partial-label (PLL): a címke nem egyetlen, hanem jelölthalmaz.

Kiskereskedelmi analógia (érthetően):

Bag = egy vásárló adott heti viselkedése (kattintások, kosár, keresések)
Instance = egy-egy esemény
Jelölt címkék = lehetséges szegmensek (pl. „árérzékeny”, „ajándékvásárló”, „márkahű”), amelyeket az adatok és a heurisztikák adnak

Egészségügyi párhuzam:

Bag = egy beteg vizit-csomagja (labor, képalkotó, tünetlista)
Jelölt címkék = 2–3 differenciáldiagnózis

A kutatás lényege: a diszambiguálás veszteségfüggvényét úgy kell megtervezni, hogy a modell ne csak „találjon”, hanem őszintén is kommunikálja a bizonytalanságát.

Mi az a Calibratable Disambiguation Loss (CDL), és miért praktikus?

Válasz röviden: a CDL egy olyan veszteség, amit meglévő MIPL/PLL módszerekhez hozzá lehet adni, és célzottan javítja a kalibrációt.

A paper két CDL-változatot ír le:

1) CDL a jelölt címkék valószínűségeivel

Itt a kalibrálás fókusza azon van, hogy a modell a jelölthalmazon belül ne legyen indokolatlanul magabiztos. Kiskereskedelmi nyelven: ha a rendszer csak annyit tud, hogy a ticket lehet „szállítás” vagy „fizetés”, akkor a tanítás során ne kényszerítsük arra, hogy túl gyorsan 99%-ra álljon az egyikre, ha nincs elég bizonyíték.

2) CDL a jelölt és nem jelölt címkék bevonásával

Ez a verzió azt is figyelembe veszi, hogy a nem jelölt címkék mennyire valószínűek. Ez fontos, mert a jelölthalmaz gyakran nem tökéletes: előfordul, hogy a valódi címke kimarad. (Kiskereskedelemben ez gyakori, amikor egy új issue-típus megjelenik, vagy a kategóriafa változik.)

A „plug-and-play” jelleg számomra a legértékesebb üzenet: nem kell mindent újratervezni. A CDL beilleszthető meglévő tanítási pipeline-okba, és a kutatók elméleti érvekkel is alátámasztják, hogy miért viselkedik jobban, mint a hagyományos diszambiguálási veszteségek (alsó korlát és regularizációs tulajdonságok).

Egy AI-rendszer megbízhatósága nem ott dől el, hogy mit tippel, hanem ott, hogy mennyire jól méri fel a saját bizonytalanságát.

Hogyan fordítható ez le e-kereskedelmi és egészségügyi use case-ekre?

Válasz röviden: a CDL akkor ad értéket, amikor a döntés költségfüggő, és a címkék részlegesek vagy későn tisztulnak.

E-kereskedelem: termékcímkézés és kereső

Ha a termékcímkék részlegesek (több lehetséges kategória), akkor a kalibrált modell segít:

Jobb automatizációs küszöbök beállításában (pl. 0,92 felett automatikus publikálás)
Kézi ellenőrzés célzottabb használatában (csak a valóban bizonytalan esetek mennek moderációra)
Kereső és ajánlórendszer stabilabb működésében (a bizonytalan kategória kevésbé rontja el a rangsort)

Kiskereskedelmi ügyfélszolgálat: ticket routing

Részleges címkéknél gyakori, hogy több csapat is „érintett”. Kalibrációval:

csökken a pingpong (ticket átirányítás)
jobban mérhető a „bizonytalan sáv”, ahová senior kolléga kell
a rendszer nem tesz úgy, mintha mindent tudna

Egészségügy: triázs és döntéstámogatás

A kampány szempontjából itt a legerősebb a párhuzam. A klinikai adatok:

hiányosak (nem készült el minden vizsgálat)
zajosak (különböző intézmények, protokollok)
részlegesen címkézettek (differenciáldiagnózis, késői megerősítés)

Egy kalibrált döntéstámogató modellnél pontosan meg lehet mondani:

mikor indokolt további vizsgálat
mikor kell másodvélemény
mely eseteknél vállalható az automatikus javaslat (szigorú protokoll mellett)

Gyakorlati ellenőrzőlista: hogyan használd a „kalibráció” gondolatát a projektedben?

Válasz röviden: mérd, küszöböld, és kösd költséghez – különben a valószínűség csak szép szám.

Ne csak pontosságot riportolj. AUC/accuracy mellé tegyél be legalább egy kalibrációs mutatót (pl. ECE jellegű mérés a csapaton belül).
Tervezd meg a jelölthalmazt. Partial label esetén dokumentáld, honnan jönnek a jelöltek (szabály, annotátor, heurisztika).
Határozd meg az automatizációs sávokat. Példa:
- 0,95–1,00: automatikus
- 0,75–0,95: emberi ellenőrzés
- 0,00–0,75: visszadobás / további adat
Vezess be „bizonytalansági KPI-t”. Mennyi eset kerül a középső sávba? Ha ez hirtelen nő, valószínű adatdrift van.
Készülj szezonális driftre. Decemberben más a termék mix, más a panaszok aránya, más a csalási mintázat. A kalibráció segít, de csak akkor, ha folyamatosan figyeled.

Mit érdemes hazavinni ebből a kutatásból?

A CDL üzenete nekem nagyon gyakorlati: a részleges címkék nem mellékes „adatproblémák”, hanem a rendszer tervezési alapfeltételei. Ha ezt elfogadjuk, akkor a veszteségfüggvény szintjén is úgy kell tanítani a modellt, hogy az egyszerre legyen pontos és megbízható.

A „Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben” sorozatban ez a téma jó helyre kerül: az ajánlórendszer, a kereső, a kategorizálás, a demand forecasting mind abból él, hogy mennyire lehet hinni a modell által adott valószínűségeknek. Az egészségügyi párhuzam pedig kijózanító: ott a kalibráció nem csak ROI, hanem felelősség.

Ha most fut nálatok részlegesen címkézett feladat (ticket routing, termékkategória, fraud triázs, vagy akár klinikai döntéstámogatás), én egy dolgot kérdeznék a csapattól: a modellünk valószínűségei mennyire „igazmondók”, és mit teszünk, ha nem azok?

Ha szeretnél egy rövid, cégre szabott workshopot arról, hogyan mérhető és javítható a kalibráció részleges címkézés mellett (kiskereskedelemben vagy egészségügyben), írj: az első lépés általában egy 2 hetes audit és egy kísérleti baseline.