Gyorsabb MLLM-inferencia: okos GPU-ütemezés és költségcsökkentés

Mesterséges intelligencia a pénzügyi és banki szektorban••By 3L3C

A multi-stage MLLM inferencia szűk keresztmetszeteit GPU-ütemezéssel lehet megtörni. FlashCodec és UnifiedServe szemlélet banki és egészségügyi AI-hoz.

MLLMGPU ütemezésMultimodális AIBanki informatikaInferenciaszolgáltatásSLO és teljesítmény
Share:

Featured image for Gyorsabb MLLM-inferencia: okos GPU-ütemezés és költségcsökkentés

Gyorsabb MLLM-inferencia: okos GPU-ütemezés és költségcsökkentés

A legtöbb csapat ott rontja el a multimodális AI-t (képet, videót és szöveget együtt kezelő modelleket), hogy a „nagy modell” köré épít mindent, miközben a rendszer szűk keresztmetszetei csendben elviszik a teljesítményt. A valóságban nem a modellparaméterek száma dönti el, mennyire használható egy MLLM a gyakorlatban, hanem az, hogy mennyi idő alatt kapjuk meg az első értelmes választ.

A 2025.12.22-i arXiv publikáció (Zhao, Zhou, Che, Cheng) egy nagyon kézzelfogható problémára mutat rá: a multimodális nagy nyelvi modellek inferenciája tipikusan háromlépcsős futószalag, és ebből a futószalagból több ponton is kifolyik az idő és a pénz. A szerzők két megoldást javasolnak: FlashCodec (gyorsabb multimodális előfeldolgozás, különösen videódekódolás) és UnifiedServe (GPU-n belüli ütemezés és erőforrás-megosztás a vision encoder és az LLM között). A közölt számok szerint az end-to-end stack akár 3,0× több kérést tud kiszolgálni, vagy 1,5× szigorúbb SLO-t (szolgáltatási szint cél) tartani, miközben 4,4× throughput is elérhető a korábbi rendszerekhez képest.

És hogy jön ez a „Mesterséges intelligencia a pénzügyi és banki szektorban” sorozatunkhoz? Úgy, hogy a banki AI egyre gyakrabban multimodális: videós KYC, dokumentumképek, aláírások, képernyőképek, call center beszélgetések kivonatai. A gyors, kiszámítható inferencia ma már nem „nice to have”, hanem üzleti kockázatkezelés.

Miért lassú a multimodális inferencia valójában?

A kulcspont: az MLLM-ek tipikusan többlépcsős pipeline szerint működnek, és mindegyik lépcső más jellegű erőforrást igényel. A cikk három szakaszt emel ki:

  1. Multimodális előfeldolgozás (pl. képméretre hozás, videó frame-ek kivágása, videódekódolás)
  2. Vision encoder (képből/videóból embeddingek előállítása)
  3. LLM inferencia (prefill + tokenenkénti dekódolás)

A gond nem az, hogy ezek egymás után vannak. A gond az, hogy heterogének:

  • a videĂłdekĂłdolás gyakran CPU-hoz kötött, Ă©s meglepĹ‘en sokáig tarthat
  • a vision encoder egy „masszĂ­v” számĂ­tás, ami nem batch-elhetĹ‘ jĂłl a klasszikus LLM dekĂłdolással
  • a GPU-kat sok esetben Ăşgy osztjuk ki, hogy „kĂĽlön GPU a visionnek, kĂĽlön GPU az LLM-nek”, ettĹ‘l viszont mindkettĹ‘ alulterhelt lehet, mert a lĂ©pcsĹ‘k egymásra várnak

A felhasználói élményt egyetlen szám sűríti: TTFT (Time-to-First-Token). Banki környezetben ez a gyakorlatban így csapódik le:

  • ĂśgyfĂ©lazonosĂ­tásnál (KYC) az elsĹ‘ visszajelzĂ©s ideje befolyásolja a lemorzsolĂłdást.
  • CsalásgyanĂşs tranzakciĂłnál a kĂ©slekedĂ©s növeli a kárt (több tranzakciĂł „átcsĂşszik”).
  • ĂśgyfĂ©lszolgálati automatizálásnál a válaszidĹ‘ rontja az NPS-t.

Snippet-kompatibilis állítás: A TTFT nem modellparaméter-probléma, hanem rendszertervezési probléma.

FlashCodec: miért a videódekódolás a rejtett költségfaló?

A cikk állítása világos: a multimodális előfeldolgozásban – különösen videónál – a dekódolás dominálhatja a TTFT-t. Sok rendszer továbbra is CPU-n dekódol, mert „úgy szokás”, meg „a GPU drága”. Csakhogy ettől a pipeline eleje bedugul, és hiába áll készen a GPU az encoderre és az LLM-re, nincs mit ennie.

Mit csinál másképp a FlashCodec?

A FlashCodec lényege, hogy kollaboratív, több-GPU-s videódekódolást használ: a dekódolási munkát nem egyetlen CPU szálra vagy egyetlen GPU-ra bízza, hanem több GPU között osztja szét, úgy, hogy közben a throughput is magas marad, de a késleltetés (latency) is megfelel az inferencia-igényeknek.

A gyakorlati üzenet bankoknak és fintech csapatoknak:

  • Ha videĂłs KYC-t futtatsz (Ă©lĹ‘kĂ©p + dokumentum mozgatása), a dekĂłdolásbĂłl könnyen „láthatatlan” kĂ©sleltetĂ©s lesz.
  • Ha a TTFT rossz, az ĂĽgyfĂ©l azt Ă©rzĂ©keli: „lefagyott a folyamat”.
  • A gyorsĂ­tás nem feltĂ©tlenĂĽl több hardver: sokszor jobb ĂĽtemezĂ©s Ă©s megosztás.

Mini-szcenárió: videós KYC torlódás év végén

Decemberben tipikusan megugrik bizonyos banki folyamatok volumene (év végi számlanyitási kampányok, hiteligénylések, ügyféladat-frissítések). Ilyenkor a rendszer nem átlagos terhelést kap, hanem csúcsot. Ha a videódekódolás CPU-n fut és telítődik, a pipeline eleje lassít, és a többi lépcső hiába „várakozik”. FlashCodec szemlélettel a dekódolás skálázása nem utólagos tűzoltás, hanem tervezési alapelv.

UnifiedServe: logikailag szétválasztani, fizikailag megosztani

A cikk legérdekesebb üzenete szerintem ez: a vision encoder és az LLM futtatása sok helyen vagy egymásra blokkol (mert egy GPU-n futnak rossz ütemezéssel), vagy „szétszedjük” őket külön GPU-kra, de akkor meg a lépcsők közötti várakozás miatt mindkét oldalon üresjárat keletkezik.

A UnifiedServe erre egy elegáns rendszerszintű választ ad:

  • logikailag decoupled: a lĂ©pcsĹ‘k futása nincs kĹ‘be vĂ©sve szigorĂş blokkolĂł sorrenddel
  • fizikailag shared: a GPU erĹ‘forrásait (compute, memĂłria, ĂĽtemezĂ©s) Ăşgy osztja meg, hogy a kihasználtság magas maradjon
  • cĂ©l: inter-stage blocking minimalizálása, interferencia kontrollálása

Snippet-kompatibilis állítás: Nem az a cél, hogy minden lépcső külön GPU-t kapjon, hanem hogy a GPU-n belüli ütemezés a lépcsők természetéhez igazodjon.

Miért fontos ez pénzügyi rendszereknél?

Banki inferenciaszolgáltatásoknál gyakran egyszerre kell teljesíteni:

  • szigorĂş SLO-kat (pl. ĂĽgyfĂ©lfolyamatoknál válaszidĹ‘)
  • költsĂ©gkeretet (GPU idĹ‘ drága, a CFO kĂ©rdez)
  • terhelĂ©si csĂşcsokat (kampány, fizetĂ©snap, ĂĽnnepek)

A UnifiedServe típusú megközelítés azért releváns, mert a pénzügyi AI sokszor „multi-stage” még akkor is, ha nem látványosan multimodális:

  • dokumentum beolvasás → OCR/vision encoder → LLM Ă©rtelmezĂ©s → szabálymotor/riszk
  • kĂ©pernyĹ‘kĂ©p elemzĂ©s (fraud/ATO) → vision → LLM magyarázat → ĂĽgyfĂ©lszolgálati workflow

Ezeknél a pipeline-oknál az a csapda, hogy egy-egy lépcső egyszerre compute-heavy, máskor memory-heavy, és a naiv ütemezésből kiszámíthatatlan latencia lesz.

Mit jelent a „disaggregated” megközelítés üzemeltetésben?

A „disaggregated” itt nem marketing. Üzemeltetési nyelvre fordítva: a rendszer képes úgy kezelni a pipeline lépcsőit, mintha külön szolgáltatások lennének (skálázható, elkülönített logika), de közben a fizikai erőforrásokat nem pazarolja el.

Gyakorlati kontrollpontok (checklist) MLLM szolgáltatáshoz

Ha banki/fintech környezetben MLLM-alapú szolgáltatást építesz (KYC, dokumentumfeldolgozás, fraud elemzés), én ezeket a kérdéseket tenném fel már az első architekturális workshopon:

  1. Mi a TTFT célérték? (külön a belső backoffice és külön az ügyfél-facing folyamatokra)
  2. Hol dekódolunk videót? CPU, egy GPU, több GPU? Mikor telítődik?
  3. A vision encoder és az LLM ugyanazon GPU-n fut? Ha igen, milyen ütemezéssel kerülhető el a blokkolás?
  4. Mérünk-e stage-szintű késleltetést? (külön előfeldolgozás / encoder / prefill / decode)
  5. Mi történik csúcsidőben? SLO-szigorítás vagy request-szám növelés a cél?

A cikk számai (3,0× request vagy 1,5× szigorúbb SLO, 4,4× throughput) azt üzenik: a nyereség nagy része tipikusan nem modellfinomhangolásból jön, hanem pipeline és GPU erőforrás-szervezésből.

Egészségügyi párhuzam, ami a banki vezetőknek is hasznos

A kampányunk fókusza az „Mesterséges intelligencia az egészségügyben”, és van egy olyan áthallás, amit pénzügyi oldalon sem érdemes ignorálni: az egészségügyben a multimodális diagnosztika (képalkotás + szöveges lelet + idősoros adatok) ugyanazt a rendszerszintű problémát hozza elő, mint a banki multimodális folyamatok.

  • Az orvosi kĂ©palkotásnál a gyors, stabil inferencia közvetlenĂĽl befolyásolja a workflow-t.
  • A banknál a gyors, stabil inferencia közvetlenĂĽl befolyásolja az ĂĽgyfĂ©lĂ©lmĂ©nyt Ă©s a vesztesĂ©gmegelĹ‘zĂ©st.

A közös nevező: erőforrás-megosztás és ütemezés. Ha egy kórházi telemedicina platformnál számít, hogy a GPU-k ne álljanak üresen a pipeline-várakozás miatt, akkor ez ugyanúgy számít egy banki digitális csatornánál is.

Mit érdemes most meglépni, ha MLLM-et futtatsz (vagy jövőre tervezed)?

A legjobb következő lépés nem feltétlenül az, hogy „cseréljük le a modellt”. Sokkal inkább:

  • Pipeline audit: mĂ©rd meg kĂĽlön az elĹ‘feldolgozás, vision encoding Ă©s LLM rĂ©szek idejĂ©t (TTFT + token-latency).
  • CPU vs GPU elĹ‘feldolgozás döntĂ©s: ha videĂł van a kĂ©pletben, kezeld a dekĂłdolást elsĹ‘rendű teljesĂ­tmĂ©nytĂ©nyezĹ‘kĂ©nt.
  • ĂśtemezĂ©si stratĂ©gia: a vision encoder Ă©s az LLM egyĂĽttĂ©lĂ©sĂ©t ne ad-hoc mĂłdon oldd meg; a GPU belsĹ‘ erĹ‘forrásait tudatosan oszd meg.
  • SLO-k Ăşjradefiniálása: döntsd el, hogy csĂşcsban a rendszer inkább több requestet szolgáljon ki, vagy szigorĂşbb válaszidĹ‘t tartson.

A multi-stage MLLM inferencia nem „szép kutatási téma”, hanem egy nagyon is üzleti kérdés: mennyibe kerül egy válasz, és mennyire kiszámítható a válaszidő.

A következő hónapokban (különösen 2026 elején, amikor sok szervezet új költség- és kapacitástervet készít) szerintem azok a csapatok lesznek előnyben, akik a modell mellett a rendszert is optimalizálják. A GPU-idő a legdrágább erőforrásod; ne pazarold pipeline-várakozásra.

Ha te most egy banki vagy biztosítói AI platformért felelsz: melyik fáj jobban—az, hogy a csúcsidős SLO csúszik, vagy az, hogy a GPU-k kihasználtsága alacsony, mégis drága a szolgáltatás?