Az xGR megmutatja, hogyan lehet generatĂv ajánlĂłrendszereket alacsony kĂ©sleltetĂ©ssel skálázni. Tanulságok e-kereskedelemre Ă©s egĂ©szsĂ©gĂĽgyre.

GeneratĂv ajánlĂłrendszerek skálázása: xGR a gyakorlatban
2025 vĂ©gĂ©re a generatĂv modellek már nemcsak „szĂ©p” szövegeket Ărnak: egyre több cĂ©g prĂłbálja LLM-alapĂş generatĂv ajánlĂłrendszerekkel kiváltani vagy kiegĂ©szĂteni a klasszikus rangsorolĂł pipeline-okat. A gond ott kezdĹ‘dik, amikor a prototĂpus találkozik a valĂłs forgalommal: csĂşcsidĹ‘ben sok ezer párhuzamos kĂ©rĂ©s, szigorĂş válaszidĹ‘-SLA, Ă©s közben a költsĂ©gkeret sem vĂ©gtelen.
A friss xGR kutatás (2025.12.19-Ă©n frissĂtett verziĂł) pontosan ezt a fájdalompontot cĂ©lozza: hogyan lehet a generatĂv ajánlást alacsony kĂ©sleltetĂ©ssel Ă©s nagy áteresztĹ‘kĂ©pessĂ©ggel kiszolgálni. Ami nekem kĂĽlönösen tetszik benne, hogy nem „mĂ©g egy modelltrĂĽkk”: ez szolgáltatás- Ă©s rendszertervezĂ©s. És ez az a rĂ©teg, ami a kiskereskedelmi/e-kereskedelmi AI-ban is gyakran alulbecsĂĽlt.
A cikkben vĂ©gig a „MestersĂ©ges intelligencia a kiskereskedelemben Ă©s e-kereskedelemben” sorozat szemszögĂ©bĹ‘l gondolkodom, de közben folyamatosan áthidalom az egĂ©szsĂ©gĂĽgyi párhuzamokat is: ha a skálázott generatĂv ajánlás működik a kosárĂ©rtĂ©kĂ©rt, működhet a betegĂşt- Ă©s diagnosztikai ajánlásokĂ©rt is – csak a szabályozási Ă©s biztonsági elvárások sokkal szigorĂşbbak.
MiĂ©rt más a generatĂv ajánlás, mint a „sima” LLM-serving?
A lĂ©nyeg: a generatĂv ajánlĂłrendszerek terhelĂ©si mintája eltĂ©r a klasszikus LLM-chat kiszolgálástĂłl.
LLM-chatnĂ©l jellemzĹ‘en rövidebb promptokkal indĂtunk, aztán hosszabban generálunk. GeneratĂv ajánlásnál (GR) viszont gyakori, hogy:
- hosszú a bemenet (például több száz eseményből álló user–item szekvencia: kattintások, megtekintések, kosárba tétel, vásárlás),
- rövid és fix hosszú a kimenet (pl. top-20 ajánlás),
- a decode szakasz mégis drága, mert nagy a beam width (több párhuzamos „jelölt út” keresése),
- a jelölt tér hatalmas, ezért a rendezés/szűrés overheadje időben és költségben is megugrik.
E-kereskedelemben ez úgy csapódik le, hogy hiába jobb az ajánlás minősége, ha a válaszidő miatt romlik a konverzió, vagy a magas GPU-költség megeszi a marzsot. Egészségügyben pedig még keményebb a helyzet: egy triázs vagy klinikai döntéstámogatás esetén a késleltetés nemcsak UX-kérdés, hanem folyamatbiztonsági tényező.
Egy mondatban: a generatĂv ajánlás „hosszĂş prefill + rövid, de drága decode”, Ă©s ezt kĂĽlön kell optimalizálni.
Mit ĂgĂ©r az xGR, Ă©s miĂ©rt Ă©rdekes ĂĽzletileg?
Az xGR egy GR-orientált serving rendszer, ami kifejezetten alacsony késleltetés mellett, nagy konkurencia esetén próbál maximális throughputot adni. A tanulmány szerint a mért nyereség legalább 3,49× áteresztőképesség a korábbi state-of-the-art baseline-hoz képest, szigorú latency korlátok mellett.
Ez üzletileg több dolgot jelenthet:
- ugyanazzal a GPU-parkkal több forgalmat szolgálsz ki,
- vagy ugyanazt a forgalmat kisebb költséggel,
- és (ami a legfontosabb) stabilabb SLA-t kapsz csúcsidőben.
A kiskereskedelmi AI-ban ezt tipikusan a karácsonyi időszakban érzed meg a legerősebben (és igen, 2025 decemberében ez kifejezetten aktuális): az ajánlórendszer terhelése ilyenkor nem „kicsit nő”, hanem megugrik.
Az xGR három ötlete: mit csinál másképp a pipeline-ban?
Az xGR három technikai pillĂ©rt emel ki. Nem kell minden belsĹ‘ rĂ©szletet ismerni ahhoz, hogy Ă©rtsĂĽk a lĂ©nyegĂ©t: mindhárom arrĂłl szĂłl, hogy kevesebb felesleges munka törtĂ©njen a kritikus Ăştvonalon, Ă©s jobban átfedjĂ©k a számĂtást.
1) Prefill Ă©s decode egysĂ©gesĂtĂ©se: staged compute + szeparált KV cache
Válasz elsőként: az xGR úgy kezeli a prefill és a decode munkát, hogy jobban illeszkedjen a GR terhelési profiljához.
A klasszikus transformer servingnĂ©l a KV cache (Key-Value cache) a decode gyorsĂtásának alapja. GR esetĂ©n viszont a prefill hosszĂş, a decode rövid, Ă©s a beam search miatt a cache-kezelĂ©s könnyen szĂ©ttöredezik.
Az xGR két irányból fogja meg:
- staged computation: a számĂtást lĂ©pĂ©sekre bontja Ăşgy, hogy a GPU/CPU Ă©s memĂłria-hozzáfĂ©rĂ©sek jobban ĂĽtemezhetĹ‘k legyenek,
- separated KV cache: a cache-t Ăşgy választja szĂ©t/strukturálja, hogy kevesebb legyen a fölös másolás Ă©s jobb legyen az ĂşjrahasznosĂtás.
E-kereskedelemben ez akkor látványos, ha sok az ismétlődő minta (pl. ugyanazon kampány-termékek sok felhasználónál). Egészségügyben pedig azért fontos, mert a betegút-szekvenciák (laborok, ICD-kódok, vizitek) hasonlóan hosszúak lehetnek, és ott sem fér bele, hogy a rendszer cache-menedzsment miatt „akadozzon”.
2) Beam search gyorsĂtása: korai rendezĂ©s-leállĂtás Ă©s maszkos item-szűrĂ©s
Válasz elsĹ‘kĂ©nt: a legdrágább pontot, a hatalmas item-tĂ©r rendezĂ©sĂ©t Ă©s szűrĂ©sĂ©t rövidĂti le.
GeneratĂv ajánlásnál a beam search nemcsak több jelöltet futtat, hanem a vĂ©gĂ©n (vagy közben) sokat kell rendezni, top-k-t kiválasztani, Ă©s ki kell zárni Ă©rvĂ©nytelen jelölteket.
Az xGR itt két praktikus trükköt hoz:
- early sorting termination: nem rendez végig mindent, ha már biztosan megvan, ami kell (tipikusan top-k),
- mask-based item filtering adatstruktĂşra-ĂşjrahasznosĂtással: a rendszer nem enged be eleve olyan itemeket a jelöltek közĂ©, amik „tiltĂłlistán” vannak (kĂ©szlethiány, jogi tiltás, Ă©letkori korlát, szemĂ©lyes preferencia), Ă©s mindezt Ăşgy, hogy a szűrĂ©shez használt struktĂşrák nem Ă©pĂĽlnek fel Ăşjra minden kĂ©rĂ©snĂ©l.
Kiskereskedelmi párhuzam (nagyon kézzelfogható):
- ha egy termĂ©k nincs kĂ©szleten, vagy nem szállĂthatĂł az adott rĂ©giĂłba, akkor ne is kerĂĽljön be a beam jelöltterĂ©be,
- ha bizonyos kategóriák tiltottak (pl. szabályozott termékek), a maszk ezt rögtön levágja,
- Ăgy az ajánlás nemcsak gyorsabb, hanem „tisztább” is.
EgĂ©szsĂ©gĂĽgyi analĂłgia: klinikai ajánlásnál a „maszk” lehet protokoll- Ă©s kontraindikáciĂłs szűrĂ©s (pĂ©ldául egy gyĂłgyszerjavaslat ne jelenjen meg, ha allergia vagy interakciĂł miatt nem releváns). Itt az optimalizáciĂł egyszerre teljesĂtmĂ©ny- Ă©s biztonsági kĂ©rdĂ©s.
3) Pipeline ĂşjraĂ©pĂtĂ©se: multilevel overlap Ă©s multi-stream párhuzamosság
Válasz elsőként: az xGR a várakozási időt csökkenti azzal, hogy több műveletet átfedésbe hoz, és párhuzamos streameken futtat.
A serving rendszerekben gyakori, hogy a GPU számol, közben a CPU vár, vagy fordĂtva, Ă©s a memĂłria-mozgatás is „láthatatlanul” eszi az idĹ‘t. Az xGR cĂ©lja, hogy:
- a prefill/decode egyes lépései átfedjék egymást,
- a különböző stream-ek (GPU munkafolyamok) jobban kihasználják a rendelkezésre álló erőforrásokat,
- Ăgy ugyanazon hardveren több request fĂ©rjen bele ugyanabba az idĹ‘ablakba.
A gyakorlati üzenet számomra: ha GR-t akarsz élesben, akkor nem elég „jó modellt” tréningezni. A kiszolgáló pipeline ugyanúgy termék, és külön optimalizációt igényel.
Mit jelent ez a kiskereskedelmi és e-kereskedelmi AI-ban?
Válasz elsĹ‘kĂ©nt: a generatĂv ajánlás akkor lesz ĂĽzletileg Ă©letkĂ©pes, ha a serving költsĂ©g Ă©s a latency egyĂĽtt kezelhetĹ‘.
A klasszikus ajánlĂłrendszerek (kĂ©tlĂ©pcsĹ‘s retrieval + ranking) Ă©vtizedek Ăłta azĂ©rt működnek jĂłl, mert kiszámĂthatĂłak Ă©s gyorsak. A generatĂv ajánlás elĹ‘nye a szekvenciák mĂ©lyebb megĂ©rtĂ©se Ă©s a rugalmasabb jelöltkĂ©pzĂ©s. De ha a beam search Ă©s a decode költsĂ©ge elszáll, a CFO gyorsan nemet mond.
Három konkrét, alkalmazható tanulság e-kereskedelmi csapatoknak:
- Ne általános LLM-serving stackre húzd rá a GR-t „ahogy van”. A terhelésprofil más, a bottleneckek mások.
- A jelöltteret ĂĽzleti szabályokkal korán szűkĂtsd. KĂ©szlet, margin, szállĂthatĂłság, compliance: ezek nem a vĂ©gĂ©n „szĂ©pĂtĂ©sek”, hanem teljesĂtmĂ©nykulcsok.
- Mérj beam width és top-k oldalról is. A minőség–költség görbe nem lineáris: egy kis beam csökkentés néha nagy latency nyereséget ad minimális minőségromlással.
Ugyanez az egészségügyben: személyre szabás, csak nagyobb téttel
Válasz elsĹ‘kĂ©nt: az xGR-szerű serving megközelĂtĂ©s a klinikai generatĂv ajánlásoknál is releváns, mert ott is hosszĂş a kontextus Ă©s szigorĂş a válaszidĹ‘.
Az egészségügyi MI (mesterséges intelligencia az egészségügyben) területén egyre gyakoribbak az olyan use case-ek, ahol „ajánlani” kell:
- következő diagnosztikai lépéseket (labor, képalkotás),
- betegút-útvonalakat (melyik szakrendelés, milyen kontroll),
- személyre szabott életmód- vagy terápiás javaslatokat.
Ezek valĂłjában nagyon hasonlĂtanak az e-kereskedelmi ajánláshoz: hosszĂş elĹ‘zmĂ©nyt nĂ©zĂĽnk, rövid listát adunk vissza. A kĂĽlönbsĂ©g, hogy:
- sokkal szigorúbb a traceability (miért ezt ajánlotta?),
- erősebb a safety (mit nem szabad ajánlani?),
- és a késleltetés gyakran folyamatkritikus.
A „mask-based filtering” itt kĂĽlönösen erĹ‘s ĂĽzenet: a klinikai rendszerben a maszk lehet guideline, kontraindikáciĂł, Ă©letkor, terhessĂ©g, gyĂłgyszer-interakciĂł, intĂ©zmĂ©nyi protokoll. Ha a serving architektĂşra eleve Ăşgy van kitalálva, hogy a tiltás Ă©s szűrĂ©s gyors, akkor a biztonsági korlát nem „ráépĂtett fĂ©k”, hanem a rendszer termĂ©szetes rĂ©sze.
Gyakorlati ellenőrzőlista: mikor érdemes xGR-szemléletben gondolkodni?
Válasz elsőként: akkor, ha már most a serving a szűk keresztmetszet, vagy 3–6 hónapon belül az lesz.
Ha generatĂv ajánlást tervezel (kiskereskedelemben vagy egĂ©szsĂ©gĂĽgyben), Ă©n ezt a listát szoktam javasolni egy gyors helyzetfelmĂ©rĂ©shez:
- Konkurencia: hány párhuzamos ajánláskérés jön csúcsban (P95, P99)?
- SLA: mi a maximális P95 latency? (Nem átlag!)
- Kimenet: fix top-k kell (pl. 10/20/50), vagy adaptĂv?
- Beam width: mekkora beam kell ténylegesen minőséghez, és mekkora „megszokásból”?
- Item space: hány aktĂv termĂ©k/entitás van, Ă©s mennyi a szűrĂ©s után?
- Szűrési szabályok: mennyi üzleti/compliance tiltás van, és ezek a pipeline melyik pontján érvényesülnek?
- KöltsĂ©g: mennyi a megengedett ajánlás-költsĂ©g 1000 requestre vetĂtve?
Ha ezekből 2-3 elemre azt mondod, hogy „nem tudjuk pontosan”, akkor a projekt tipikusan nem modell-, hanem operációs és mérési kockázatba fut.
Következő lépés: ajánlásból döntéstámogatás – felelősen
A generatĂv ajánlĂłrendszerek skálázása nem látványos tĂ©ma, mĂ©gis itt dĹ‘l el, hogy egy AI-kĂ©pessĂ©gbĹ‘l lesz-e termĂ©k. Az xGR ĂĽzenete számomra egyszerű: a generatĂv ajánlás servingje kĂĽlön műfaj, Ă©s aki erre kĂĽlön optimalizál, az stabilabb latency-t Ă©s jobb költsĂ©g/Ă©rtĂ©k arányt kap.
Ha a „Mesterséges intelligencia a kiskereskedelemben és e-kereskedelemben” sorozatot követed, ez a poszt jó helyre illeszkedik: a személyre szabott ajánlások minősége mellett most a kiszolgálhatóság a fókusz. És ugyanaz a tudás átvihető az egészségügybe is, ahol a személyre szabás értéke még nagyobb, de a kontrolloknak is erősebbnek kell lenniük.
A kérdés, amin szerintem érdemes elgondolkodni 2026 eleje előtt: a csapatod ma modellben gondolkodik, vagy rendszerben?