GPU-időzítés MLLM-ekhez: gyorsabb kép- és videóelemzés

Mesterséges intelligencia az oktatásban és EdTech területen••By 3L3C

A GPU-időzítés és erőforrás-megosztás 2025-ben kulcs az MLLM-ek gyorsításához. Kevesebb TTFT, több kérés, jobb valós idejű élmény.

MLLMGPU schedulingmultimodális inferenciaEdTech infrastruktúraegészségügyi AIvideófeldolgozás
Share:

Featured image for GPU-időzítés MLLM-ekhez: gyorsabb kép- és videóelemzés

GPU-időzítés MLLM-ekhez: gyorsabb kép- és videóelemzés

A legtöbb szervezet ott veszít időt a multimodális AI-val (kép+szöveg, videó+szöveg), ahol nem is keresi: nem a “modell okosságán”, hanem a kiszolgálásán. A Time-to-First-Token (TTFT) – az az idő, amíg egy rendszer az első értelmes választ “kiköpi” – sok esetben nem a nagy nyelvi modell (LLM) miatt csúszik el, hanem már azelőtt, hogy a modell egyáltalán dolgozni kezdene.

A friss kutatások egyik tanulsága, hogy a multimodális pipeline (előfeldolgozás → látás encoder → LLM inferencia) három külön világ, és ha ezeket naivan, egymást blokkolva futtatjuk, akkor drága GPU-k mellett is meglepően rossz lesz a kihasználtság. A 2025.12.22-én aktuális tanév végi hajrában ez EdTech-ben is fáj: ha egy platform videós beadandót elemez, táblaképet értelmez vagy kézírást olvas, akkor a késés közvetlenül rontja a felhasználói élményt.

A most megjelent rendszer-szintű megközelítés (FlashCodec + UnifiedServe) nem új modellt ígér, hanem gyorsabb és kiszámíthatóbb kiszolgálást: a beszámoló szerint akár 3,0× több kérés szolgálható ki vagy 1,5× szigorúbb SLO tartható, miközben 4,4× throughput is elérhető a korábbi megoldásokhoz képest. És ami a kampányunk szempontjából lényeges: ugyanez a gondolkodásmód az egészségügyben (képalkotás, távdiagnosztika, triázs) és az oktatásban is ugyanoda mutat – a “valós idejű” nem modellkérdés, hanem rendszerkérdés.

Miért lassú a multimodális AI a gyakorlatban?

A kulcsállítás egyszerű: az MLLM inferencia nem egy lépés, hanem egy háromlépcsős gyártósor, és a gyártósor leglassabb állomása fogja a tempót diktálni.

1) Multimodális előfeldolgozás: a videódekódolás megeszi a TTFT-et

A multimodális előfeldolgozás tipikusan olyan feladatokat jelent, mint:

  • videĂł dekĂłdolása kĂ©pkockákra,
  • kĂ©pek átmĂ©retezĂ©se, normalizálása,
  • tokenizálás Ă©s csomagolás a modell bemenetĂ©hez.

A kutatás szerint különösen a videódekódolás hajlamos dominálni a TTFT-et, mert a legtöbb rendszer CPU-n dekódol. Ez két okból gond:

  1. A CPU gyakran szűk keresztmetszet, amikor párhuzamosan sok kérést kell kezelni.
  2. A GPU közben tétlenkedik, pedig pont arra fizettünk be, hogy számoljon.

EdTech-párhuzam: ha egy tanuló feltölt egy 60–90 másodperces prezentációvideót, és a rendszernek azonnal visszajelzést kell adnia (beszédtempó, kulcspontok, vizuális elemek), akkor a késés gyakran nem a “nyelvi értékelés”, hanem a videó feldolgozhatóvá tétele.

Egészségügyi párhuzam: távleletezésnél vagy sürgősségi triázsnál a percek is számítanak, de a felhasználó az első másodpercekben ítéli meg, hogy “működik-e a rendszer”. A TTFT itt UX és bizalom kérdés.

2) Vision encoder: önálló, nehezen együtt batch-elhető szakasz

A látás encoder (pl. ViT-alapú kódoló) a képből/videóból vizuális embeddinget gyárt. Ez számításigényes, és jellemzően nem batch-elhető együtt az LLM prefill vagy decoding lépéseivel, mert más jellegű kernel-futtatásokat és memóriamintázatot kíván.

A rendszer-szintű következmény: ha külön “szigetként” futtatjuk, akkor a pipeline-ban könnyen kialakul inter-stage blocking, vagyis az egyik szakasz vár a másikra. Itt nem az a baj, hogy nincs GPU, hanem az, hogy rosszul van beosztva az idő és az erőforrás.

3) LLM inferencia: prefill és decoding, eltérő ritmussal

Az LLM inferencia belül is két világ:

  • prefill (a bemenet “betöltĂ©se”, figyelem-számĂ­tások),
  • decoding (tokenenkĂ©nti generálás).

A decoding sok kis lépésből áll, és ha a többi szakasz nem illeszkedik hozzá, akkor a GPU kihasználtság hullámzik. A felhasználó ezt úgy éli meg, hogy “néha gyors, néha gondolkodik”.

FlashCodec: gyorsabb videódekódolás több GPU-val, okosan

A FlashCodec lényege: a videódekódolást nem a CPU-ra bízza, hanem kollaboratív módon több GPU között osztja meg.

A fontos rész nem az, hogy “GPU-n dekódolunk” (ilyet láttunk már), hanem az, hogy a kutatás szerint a korábbi GPU-alapú megoldások sokszor átviteli teljesítményre optimalizálnak, miközben MLLM inferenciánál gyakran késleltetés-érzékeny a feladat. Magyarul: nem az a cél, hogy “sok videót daráljunk le egyszerre”, hanem az, hogy egy kérésből gyorsan legyen modellezhető bemenet.

A gondolkodásmód, amit én különösen hasznosnak tartok: a pipeline első lépését (dekódolás) ugyanúgy SLO-hoz kell kötni, mint a modellválaszt. Ha a TTFT-et akarod levinni, a CPU-dekódolás sokszor a legdrágább önámítás.

EdTech példa (konkrét helyzet):

  • online vizsgafelĂĽgyelet rövid klippekbĹ‘l (pl. 10–20 mp-es esemĂ©nyrĂ©szletek),
  • a rendszernek azonnal jeleznie kell, ha gyanĂşs viselkedĂ©s látszik,
  • ha a dekĂłdolás csĂşszik, a riasztás kĂ©sik, a value elvĂ©sz.

Egészségügyi példa:

  • telemedicinás konzultáciĂł során feltöltött rövid videĂł (járásminta, bĹ‘rjelensĂ©g),
  • gyors elsĹ‘ visszajelzĂ©s kell, kĂĽlönben a klinikus nem fogja beĂ©pĂ­teni a munkafolyamatába.

UnifiedServe: logikailag külön, fizikailag megosztott GPU-erőforrás

A UnifiedServe üzenete: ne kényszerítsd a különböző szakaszokat arra, hogy egymást várják, de ne is pazarolj külön GPU-t mindegyikre úgy, hogy közben félgőzön mennek.

A kutatás szerint a megoldás két részből áll:

  • logikai szĂ©tválasztás: a vision→text Ă©s az LLM inferencia Ăşgy fut, hogy csökkenjen az inter-stage blocking,
  • fizikai erĹ‘forrás-megosztás: a GPU erĹ‘forrásait (számĂ­tás, memĂłria, ĂĽtemezĂ©s) megosztva, belsĹ‘ idĹ‘zĂ­tĂ©ssel használják, hogy a kihasználtság nĹ‘jön Ă©s az interferencia csökkenjen.

Ezt érdemes egy oktatási hasonlattal elképzelni: a tanulási folyamatban is külön “modul” a videónézés, a jegyzetelés és a tesztkitöltés – de a diák idejét mégis úgy osztod be, hogy ne legyen üresjárat. A GPU pontosan ilyen: ha rossz az órarend, sokat várakozik.

Mit jelent ez SLO és skálázás szempontból?

A publikált eredmények alapján a keretrendszer:

  • akár 3,0Ă— több kĂ©rĂ©st tud kiszolgálni azonos infrastruktĂşrán,
  • vagy 1,5Ă— szigorĂşbb SLO-t tud tartani (azaz kisebb megengedett kĂ©sleltetĂ©s mellett stabil),
  • Ă©s akár 4,4Ă— nagyobb throughputot ad a korábbi rendszerekhez viszonyĂ­tva.

A gyakorlati következtetés: ha egy intézmény (iskola, kórház, szolgáltató) eddig azért nem mert valós idejű multimodális AI-t bevezetni, mert “GPU-ból úgysem lesz elég”, akkor itt egy kellemetlen igazság: sok esetben nem a GPU kevés, hanem a kiszolgálás pazarló.

Mi köze mindennek az egészségügyhöz és az EdTech-hez?

A legjobb rendszermérnöki ötletek gyakran ott születnek, ahol nagy a forgalom és drága a késés. Az MLLM-ek kiszolgálása pontosan ilyen. És ez két iparágban különösen releváns.

Egészségügy: gyorsabb képi triázs, megbízhatóbb telemedicina

Az egészségügyi AI sokszor multimodális:

  • kĂ©palkotás (röntgen, CT, MR) + lelet szöveg,
  • fotĂł (bĹ‘r, szemfenĂ©k) + anamnĂ©zis,
  • videĂł (mozgás, remegĂ©s) + klinikai kĂ©rdĂ©sek.

Ha a rendszer késik, a klinikus nem fog várni, hanem visszatér a régi rutinokhoz. Itt a GPU-időzítés és erőforrás-megosztás nem “infra finomhangolás”, hanem adoptálhatósági feltétel.

EdTech: személyre szabott tanulás multimodális inputból

A „Mesterséges intelligencia az oktatásban és EdTech területen” sorozatban gyakran beszélünk adaptív tanulási utakról, automatikus értékelésről, tanulói analitikáról. A következő lépcső viszont egyre inkább multimodális:

  • dolgozatfotĂł → automatikus javĂ­tás,
  • táblakĂ©p → jegyzetgenerálás,
  • prezentáciĂłvideĂł → kommunikáciĂłs visszajelzĂ©s,
  • laborvideĂł → lĂ©pĂ©srĹ‘l lĂ©pĂ©sre hibakeresĂ©s.

Ezeknél nem elég, hogy “pontosan értékel” a modell. Gyorsan kell reagálnia, különben a diák már továbbkattintott.

Gyakorlati ellenőrzőlista: mit csinálj másként, ha MLLM-et szolgálsz ki?

Ha a csapatod MLLM inferenciát épít (akár egészségügy, akár EdTech), ez a 7 pontos lista segít elkerülni a tipikus zsákutcákat.

  1. Mérd külön a TTFT-et és a tokenenkénti késleltetést. Ne egyetlen “átlagos latency” számot nézz.
  2. Profilozd a pipeline-t szakaszonként. Előfeldolgozás / vision encoder / prefill / decoding.
  3. Kezeld a videódekódolást elsőrendű rendszerkomponensként. Ne “mellékfeladat” legyen.
  4. Ne kényszeríts mindent közös batch-be. A heterogén szakaszoknál a túlzott co-batching visszaüthet.
  5. Ütemezés > több vas. Előbb nyerd vissza az üresjáratot, utána vegyél új GPU-t.
  6. SLO-alapú tervezés. Mondd ki, hogy pl. TTFT ≤ 800 ms vagy ≤ 1,2 s – és ahhoz igazíts mindent.
  7. Interferencia-tudatos megosztás. Ha megosztod a GPU-t, figyeld, mikor zavarják egymást a szakaszok.

Egy mondatban: a multimodális AI-nál a “valós idejű” nem varázslat. Ütemezés, erőforrás-megosztás, és könyörtelen mérés.

Merre megy ez 2026-ban? (és miért érdemes most foglalkozni vele)

2026-ban az EdTech platformoknál a videós és képi tartalom csak nőni fog: projektmunkák, portfóliók, hibrid órák felvételei, AI-alapú korrepetálás képernyőmegosztással. Az egészségügyben pedig a telemedicina és a képi triázs skálázása marad napirenden. Mindkét területen ugyanaz lesz a döntő: kiszámítható késleltetés és stabil kiszolgálás csúcsidőben.

Ha ezen a ponton azt érzed, hogy a szervezeted “jó modellt választott, mégis lassú”, akkor valószínűleg nem modellvitát kell nyitni, hanem egy infrastruktúra-vitát: hol blokkol a pipeline, hol tétlen a GPU, és mennyi idő megy el dekódolásra.

Ha szeretnél olyan MLLM-architektúrát tervezni (oktatás vagy egészségügy), ami tényleg bírja a valós terhelést, érdemes a következő beszélgetést ezzel kezdeni: mennyi a TTFT cél, és melyik szakasz a szűk keresztmetszet ma?