A multi-stage MLLM inferencia szűk keresztmetszeteit GPU-ütemezéssel lehet megtörni. FlashCodec és UnifiedServe szemlélet banki és egészségügyi AI-hoz.

Gyorsabb MLLM-inferencia: okos GPU-ütemezés és költségcsökkentés
A legtöbb csapat ott rontja el a multimodális AI-t (kĂ©pet, videĂłt Ă©s szöveget egyĂĽtt kezelĹ‘ modelleket), hogy a „nagy modell” körĂ© Ă©pĂt mindent, miközben a rendszer szűk keresztmetszetei csendben elviszik a teljesĂtmĂ©nyt. A valĂłságban nem a modellparamĂ©terek száma dönti el, mennyire használhatĂł egy MLLM a gyakorlatban, hanem az, hogy mennyi idĹ‘ alatt kapjuk meg az elsĹ‘ Ă©rtelmes választ.
A 2025.12.22-i arXiv publikáció (Zhao, Zhou, Che, Cheng) egy nagyon kézzelfogható problémára mutat rá: a multimodális nagy nyelvi modellek inferenciája tipikusan háromlépcsős futószalag, és ebből a futószalagból több ponton is kifolyik az idő és a pénz. A szerzők két megoldást javasolnak: FlashCodec (gyorsabb multimodális előfeldolgozás, különösen videódekódolás) és UnifiedServe (GPU-n belüli ütemezés és erőforrás-megosztás a vision encoder és az LLM között). A közölt számok szerint az end-to-end stack akár 3,0× több kérést tud kiszolgálni, vagy 1,5× szigorúbb SLO-t (szolgáltatási szint cél) tartani, miközben 4,4× throughput is elérhető a korábbi rendszerekhez képest.
És hogy jön ez a „MestersĂ©ges intelligencia a pĂ©nzĂĽgyi Ă©s banki szektorban” sorozatunkhoz? Ăšgy, hogy a banki AI egyre gyakrabban multimodális: videĂłs KYC, dokumentumkĂ©pek, aláĂrások, kĂ©pernyĹ‘kĂ©pek, call center beszĂ©lgetĂ©sek kivonatai. A gyors, kiszámĂthatĂł inferencia ma már nem „nice to have”, hanem ĂĽzleti kockázatkezelĂ©s.
Miért lassú a multimodális inferencia valójában?
A kulcspont: az MLLM-ek tipikusan többlépcsős pipeline szerint működnek, és mindegyik lépcső más jellegű erőforrást igényel. A cikk három szakaszt emel ki:
- Multimodális előfeldolgozás (pl. képméretre hozás, videó frame-ek kivágása, videódekódolás)
- Vision encoder (kĂ©pbĹ‘l/videĂłbĂłl embeddingek előállĂtása)
- LLM inferencia (prefill + tokenenkénti dekódolás)
A gond nem az, hogy ezek egymás után vannak. A gond az, hogy heterogének:
- a videódekódolás gyakran CPU-hoz kötött, és meglepően sokáig tarthat
- a vision encoder egy „masszĂv” számĂtás, ami nem batch-elhetĹ‘ jĂłl a klasszikus LLM dekĂłdolással
- a GPU-kat sok esetben úgy osztjuk ki, hogy „külön GPU a visionnek, külön GPU az LLM-nek”, ettől viszont mindkettő alulterhelt lehet, mert a lépcsők egymásra várnak
A felhasználĂłi Ă©lmĂ©nyt egyetlen szám sűrĂti: TTFT (Time-to-First-Token). Banki környezetben ez a gyakorlatban Ăgy csapĂłdik le:
- ĂśgyfĂ©lazonosĂtásnál (KYC) az elsĹ‘ visszajelzĂ©s ideje befolyásolja a lemorzsolĂłdást.
- Csalásgyanús tranzakciónál a késlekedés növeli a kárt (több tranzakció „átcsúszik”).
- Ügyfélszolgálati automatizálásnál a válaszidő rontja az NPS-t.
Snippet-kompatibilis állĂtás: A TTFT nem modellparamĂ©ter-problĂ©ma, hanem rendszertervezĂ©si problĂ©ma.
FlashCodec: miért a videódekódolás a rejtett költségfaló?
A cikk állĂtása világos: a multimodális elĹ‘feldolgozásban – kĂĽlönösen videĂłnál – a dekĂłdolás dominálhatja a TTFT-t. Sok rendszer továbbra is CPU-n dekĂłdol, mert „úgy szokás”, meg „a GPU drága”. Csakhogy ettĹ‘l a pipeline eleje bedugul, Ă©s hiába áll kĂ©szen a GPU az encoderre Ă©s az LLM-re, nincs mit ennie.
Mit csinál másképp a FlashCodec?
A FlashCodec lĂ©nyege, hogy kollaboratĂv, több-GPU-s videĂłdekĂłdolást használ: a dekĂłdolási munkát nem egyetlen CPU szálra vagy egyetlen GPU-ra bĂzza, hanem több GPU között osztja szĂ©t, Ăşgy, hogy közben a throughput is magas marad, de a kĂ©sleltetĂ©s (latency) is megfelel az inferencia-igĂ©nyeknek.
A gyakorlati üzenet bankoknak és fintech csapatoknak:
- Ha videós KYC-t futtatsz (élőkép + dokumentum mozgatása), a dekódolásból könnyen „láthatatlan” késleltetés lesz.
- Ha a TTFT rossz, az ügyfél azt érzékeli: „lefagyott a folyamat”.
- A gyorsĂtás nem feltĂ©tlenĂĽl több hardver: sokszor jobb ĂĽtemezĂ©s Ă©s megosztás.
Mini-szcenárió: videós KYC torlódás év végén
Decemberben tipikusan megugrik bizonyos banki folyamatok volumene (Ă©v vĂ©gi számlanyitási kampányok, hiteligĂ©nylĂ©sek, ĂĽgyfĂ©ladat-frissĂtĂ©sek). Ilyenkor a rendszer nem átlagos terhelĂ©st kap, hanem csĂşcsot. Ha a videĂłdekĂłdolás CPU-n fut Ă©s telĂtĹ‘dik, a pipeline eleje lassĂt, Ă©s a többi lĂ©pcsĹ‘ hiába „várakozik”. FlashCodec szemlĂ©lettel a dekĂłdolás skálázása nem utĂłlagos tűzoltás, hanem tervezĂ©si alapelv.
UnifiedServe: logikailag szétválasztani, fizikailag megosztani
A cikk legérdekesebb üzenete szerintem ez: a vision encoder és az LLM futtatása sok helyen vagy egymásra blokkol (mert egy GPU-n futnak rossz ütemezéssel), vagy „szétszedjük” őket külön GPU-kra, de akkor meg a lépcsők közötti várakozás miatt mindkét oldalon üresjárat keletkezik.
A UnifiedServe erre egy elegáns rendszerszintű választ ad:
- logikailag decoupled: a lépcsők futása nincs kőbe vésve szigorú blokkoló sorrenddel
- fizikailag shared: a GPU erőforrásait (compute, memória, ütemezés) úgy osztja meg, hogy a kihasználtság magas maradjon
- cél: inter-stage blocking minimalizálása, interferencia kontrollálása
Snippet-kompatibilis állĂtás: Nem az a cĂ©l, hogy minden lĂ©pcsĹ‘ kĂĽlön GPU-t kapjon, hanem hogy a GPU-n belĂĽli ĂĽtemezĂ©s a lĂ©pcsĹ‘k termĂ©szetĂ©hez igazodjon.
Miért fontos ez pénzügyi rendszereknél?
Banki inferenciaszolgáltatásoknál gyakran egyszerre kell teljesĂteni:
- szigorú SLO-kat (pl. ügyfélfolyamatoknál válaszidő)
- költségkeretet (GPU idő drága, a CFO kérdez)
- terhelési csúcsokat (kampány, fizetésnap, ünnepek)
A UnifiedServe tĂpusĂş megközelĂtĂ©s azĂ©rt releváns, mert a pĂ©nzĂĽgyi AI sokszor „multi-stage” mĂ©g akkor is, ha nem látványosan multimodális:
- dokumentum beolvasás → OCR/vision encoder → LLM értelmezés → szabálymotor/riszk
- képernyőkép elemzés (fraud/ATO) → vision → LLM magyarázat → ügyfélszolgálati workflow
EzeknĂ©l a pipeline-oknál az a csapda, hogy egy-egy lĂ©pcsĹ‘ egyszerre compute-heavy, máskor memory-heavy, Ă©s a naiv ĂĽtemezĂ©sbĹ‘l kiszámĂthatatlan latencia lesz.
Mit jelent a „disaggregated” megközelĂtĂ©s ĂĽzemeltetĂ©sben?
A „disaggregated” itt nem marketing. ĂśzemeltetĂ©si nyelvre fordĂtva: a rendszer kĂ©pes Ăşgy kezelni a pipeline lĂ©pcsĹ‘it, mintha kĂĽlön szolgáltatások lennĂ©nek (skálázhatĂł, elkĂĽlönĂtett logika), de közben a fizikai erĹ‘forrásokat nem pazarolja el.
Gyakorlati kontrollpontok (checklist) MLLM szolgáltatáshoz
Ha banki/fintech környezetben MLLM-alapĂş szolgáltatást Ă©pĂtesz (KYC, dokumentumfeldolgozás, fraud elemzĂ©s), Ă©n ezeket a kĂ©rdĂ©seket tennĂ©m fel már az elsĹ‘ architekturális workshopon:
- Mi a TTFT célérték? (külön a belső backoffice és külön az ügyfél-facing folyamatokra)
- Hol dekĂłdolunk videĂłt? CPU, egy GPU, több GPU? Mikor telĂtĹ‘dik?
- A vision encoder és az LLM ugyanazon GPU-n fut? Ha igen, milyen ütemezéssel kerülhető el a blokkolás?
- Mérünk-e stage-szintű késleltetést? (külön előfeldolgozás / encoder / prefill / decode)
- Mi törtĂ©nik csĂşcsidĹ‘ben? SLO-szigorĂtás vagy request-szám növelĂ©s a cĂ©l?
A cikk számai (3,0× request vagy 1,5× szigorúbb SLO, 4,4× throughput) azt üzenik: a nyereség nagy része tipikusan nem modellfinomhangolásból jön, hanem pipeline és GPU erőforrás-szervezésből.
Egészségügyi párhuzam, ami a banki vezetőknek is hasznos
A kampányunk fókusza az „Mesterséges intelligencia az egészségügyben”, és van egy olyan áthallás, amit pénzügyi oldalon sem érdemes ignorálni: az egészségügyben a multimodális diagnosztika (képalkotás + szöveges lelet + idősoros adatok) ugyanazt a rendszerszintű problémát hozza elő, mint a banki multimodális folyamatok.
- Az orvosi képalkotásnál a gyors, stabil inferencia közvetlenül befolyásolja a workflow-t.
- A banknál a gyors, stabil inferencia közvetlenül befolyásolja az ügyfélélményt és a veszteségmegelőzést.
A közös nevezĹ‘: erĹ‘forrás-megosztás Ă©s ĂĽtemezĂ©s. Ha egy kĂłrházi telemedicina platformnál számĂt, hogy a GPU-k ne álljanak ĂĽresen a pipeline-várakozás miatt, akkor ez ugyanĂşgy számĂt egy banki digitális csatornánál is.
Mit érdemes most meglépni, ha MLLM-et futtatsz (vagy jövőre tervezed)?
A legjobb következő lépés nem feltétlenül az, hogy „cseréljük le a modellt”. Sokkal inkább:
- Pipeline audit: mérd meg külön az előfeldolgozás, vision encoding és LLM részek idejét (TTFT + token-latency).
- CPU vs GPU elĹ‘feldolgozás döntĂ©s: ha videĂł van a kĂ©pletben, kezeld a dekĂłdolást elsĹ‘rendű teljesĂtmĂ©nytĂ©nyezĹ‘kĂ©nt.
- Ütemezési stratégia: a vision encoder és az LLM együttélését ne ad-hoc módon oldd meg; a GPU belső erőforrásait tudatosan oszd meg.
- SLO-k újradefiniálása: döntsd el, hogy csúcsban a rendszer inkább több requestet szolgáljon ki, vagy szigorúbb válaszidőt tartson.
A multi-stage MLLM inferencia nem „szĂ©p kutatási tĂ©ma”, hanem egy nagyon is ĂĽzleti kĂ©rdĂ©s: mennyibe kerĂĽl egy válasz, Ă©s mennyire kiszámĂthatĂł a válaszidĹ‘.
A következĹ‘ hĂłnapokban (kĂĽlönösen 2026 elejĂ©n, amikor sok szervezet Ăşj költsĂ©g- Ă©s kapacitástervet kĂ©szĂt) szerintem azok a csapatok lesznek elĹ‘nyben, akik a modell mellett a rendszert is optimalizálják. A GPU-idĹ‘ a legdrágább erĹ‘forrásod; ne pazarold pipeline-várakozásra.
Ha te most egy banki vagy biztosĂtĂłi AI platformĂ©rt felelsz: melyik fáj jobban—az, hogy a csĂşcsidĹ‘s SLO csĂşszik, vagy az, hogy a GPU-k kihasználtsága alacsony, mĂ©gis drága a szolgáltatás?