A GPU-idĹ‘zĂtĂ©s Ă©s erĹ‘forrás-megosztás 2025-ben kulcs az MLLM-ek gyorsĂtásához. Kevesebb TTFT, több kĂ©rĂ©s, jobb valĂłs idejű Ă©lmĂ©ny.

GPU-idĹ‘zĂtĂ©s MLLM-ekhez: gyorsabb kĂ©p- Ă©s videĂłelemzĂ©s
A legtöbb szervezet ott veszĂt idĹ‘t a multimodális AI-val (kĂ©p+szöveg, videĂł+szöveg), ahol nem is keresi: nem a “modell okosságán”, hanem a kiszolgálásán. A Time-to-First-Token (TTFT) – az az idĹ‘, amĂg egy rendszer az elsĹ‘ Ă©rtelmes választ “kiköpi” – sok esetben nem a nagy nyelvi modell (LLM) miatt csĂşszik el, hanem már azelĹ‘tt, hogy a modell egyáltalán dolgozni kezdene.
A friss kutatások egyik tanulsága, hogy a multimodális pipeline (elĹ‘feldolgozás → látás encoder → LLM inferencia) három kĂĽlön világ, Ă©s ha ezeket naivan, egymást blokkolva futtatjuk, akkor drága GPU-k mellett is meglepĹ‘en rossz lesz a kihasználtság. A 2025.12.22-Ă©n aktuális tanĂ©v vĂ©gi hajrában ez EdTech-ben is fáj: ha egy platform videĂłs beadandĂłt elemez, táblakĂ©pet Ă©rtelmez vagy kĂ©zĂrást olvas, akkor a kĂ©sĂ©s közvetlenĂĽl rontja a felhasználĂłi Ă©lmĂ©nyt.
A most megjelent rendszer-szintű megközelĂtĂ©s (FlashCodec + UnifiedServe) nem Ăşj modellt ĂgĂ©r, hanem gyorsabb Ă©s kiszámĂthatĂłbb kiszolgálást: a beszámolĂł szerint akár 3,0Ă— több kĂ©rĂ©s szolgálhatĂł ki vagy 1,5Ă— szigorĂşbb SLO tarthatĂł, miközben 4,4Ă— throughput is elĂ©rhetĹ‘ a korábbi megoldásokhoz kĂ©pest. És ami a kampányunk szempontjábĂłl lĂ©nyeges: ugyanez a gondolkodásmĂłd az egĂ©szsĂ©gĂĽgyben (kĂ©palkotás, távdiagnosztika, triázs) Ă©s az oktatásban is ugyanoda mutat – a “valĂłs idejű” nem modellkĂ©rdĂ©s, hanem rendszerkĂ©rdĂ©s.
Miért lassú a multimodális AI a gyakorlatban?
A kulcsállĂtás egyszerű: az MLLM inferencia nem egy lĂ©pĂ©s, hanem egy háromlĂ©pcsĹ‘s gyártĂłsor, Ă©s a gyártĂłsor leglassabb állomása fogja a tempĂłt diktálni.
1) Multimodális előfeldolgozás: a videódekódolás megeszi a TTFT-et
A multimodális előfeldolgozás tipikusan olyan feladatokat jelent, mint:
- videó dekódolása képkockákra,
- képek átméretezése, normalizálása,
- tokenizálás és csomagolás a modell bemenetéhez.
A kutatás szerint különösen a videódekódolás hajlamos dominálni a TTFT-et, mert a legtöbb rendszer CPU-n dekódol. Ez két okból gond:
- A CPU gyakran szűk keresztmetszet, amikor párhuzamosan sok kérést kell kezelni.
- A GPU közben tétlenkedik, pedig pont arra fizettünk be, hogy számoljon.
EdTech-párhuzam: ha egy tanuló feltölt egy 60–90 másodperces prezentációvideót, és a rendszernek azonnal visszajelzést kell adnia (beszédtempó, kulcspontok, vizuális elemek), akkor a késés gyakran nem a “nyelvi értékelés”, hanem a videó feldolgozhatóvá tétele.
EgĂ©szsĂ©gĂĽgyi párhuzam: távleletezĂ©snĂ©l vagy sĂĽrgĹ‘ssĂ©gi triázsnál a percek is számĂtanak, de a felhasználĂł az elsĹ‘ másodpercekben ĂtĂ©li meg, hogy “működik-e a rendszer”. A TTFT itt UX Ă©s bizalom kĂ©rdĂ©s.
2) Vision encoder: önálló, nehezen együtt batch-elhető szakasz
A látás encoder (pl. ViT-alapĂş kĂłdolĂł) a kĂ©pbĹ‘l/videĂłbĂłl vizuális embeddinget gyárt. Ez számĂtásigĂ©nyes, Ă©s jellemzĹ‘en nem batch-elhetĹ‘ egyĂĽtt az LLM prefill vagy decoding lĂ©pĂ©seivel, mert más jellegű kernel-futtatásokat Ă©s memĂłriamintázatot kĂván.
A rendszer-szintű következmény: ha külön “szigetként” futtatjuk, akkor a pipeline-ban könnyen kialakul inter-stage blocking, vagyis az egyik szakasz vár a másikra. Itt nem az a baj, hogy nincs GPU, hanem az, hogy rosszul van beosztva az idő és az erőforrás.
3) LLM inferencia: prefill és decoding, eltérő ritmussal
Az LLM inferencia belül is két világ:
- prefill (a bemenet “betöltĂ©se”, figyelem-számĂtások),
- decoding (tokenenkénti generálás).
A decoding sok kis lépésből áll, és ha a többi szakasz nem illeszkedik hozzá, akkor a GPU kihasználtság hullámzik. A felhasználó ezt úgy éli meg, hogy “néha gyors, néha gondolkodik”.
FlashCodec: gyorsabb videódekódolás több GPU-val, okosan
A FlashCodec lĂ©nyege: a videĂłdekĂłdolást nem a CPU-ra bĂzza, hanem kollaboratĂv mĂłdon több GPU között osztja meg.
A fontos rĂ©sz nem az, hogy “GPU-n dekĂłdolunk” (ilyet láttunk már), hanem az, hogy a kutatás szerint a korábbi GPU-alapĂş megoldások sokszor átviteli teljesĂtmĂ©nyre optimalizálnak, miközben MLLM inferenciánál gyakran kĂ©sleltetĂ©s-Ă©rzĂ©keny a feladat. Magyarul: nem az a cĂ©l, hogy “sok videĂłt daráljunk le egyszerre”, hanem az, hogy egy kĂ©rĂ©sbĹ‘l gyorsan legyen modellezhetĹ‘ bemenet.
A gondolkodásmĂłd, amit Ă©n kĂĽlönösen hasznosnak tartok: a pipeline elsĹ‘ lĂ©pĂ©sĂ©t (dekĂłdolás) ugyanĂşgy SLO-hoz kell kötni, mint a modellválaszt. Ha a TTFT-et akarod levinni, a CPU-dekĂłdolás sokszor a legdrágább önámĂtás.
EdTech példa (konkrét helyzet):
- online vizsgafelügyelet rövid klippekből (pl. 10–20 mp-es eseményrészletek),
- a rendszernek azonnal jeleznie kell, ha gyanús viselkedés látszik,
- ha a dekódolás csúszik, a riasztás késik, a value elvész.
Egészségügyi példa:
- telemedicinás konzultáció során feltöltött rövid videó (járásminta, bőrjelenség),
- gyors elsĹ‘ visszajelzĂ©s kell, kĂĽlönben a klinikus nem fogja beĂ©pĂteni a munkafolyamatába.
UnifiedServe: logikailag külön, fizikailag megosztott GPU-erőforrás
A UnifiedServe ĂĽzenete: ne kĂ©nyszerĂtsd a kĂĽlönbözĹ‘ szakaszokat arra, hogy egymást várják, de ne is pazarolj kĂĽlön GPU-t mindegyikre Ăşgy, hogy közben fĂ©lgĹ‘zön mennek.
A kutatás szerint a megoldás két részből áll:
- logikai szétválasztás: a vision→text és az LLM inferencia úgy fut, hogy csökkenjen az inter-stage blocking,
- fizikai erĹ‘forrás-megosztás: a GPU erĹ‘forrásait (számĂtás, memĂłria, ĂĽtemezĂ©s) megosztva, belsĹ‘ idĹ‘zĂtĂ©ssel használják, hogy a kihasználtság nĹ‘jön Ă©s az interferencia csökkenjen.
Ezt érdemes egy oktatási hasonlattal elképzelni: a tanulási folyamatban is külön “modul” a videónézés, a jegyzetelés és a tesztkitöltés – de a diák idejét mégis úgy osztod be, hogy ne legyen üresjárat. A GPU pontosan ilyen: ha rossz az órarend, sokat várakozik.
Mit jelent ez SLO és skálázás szempontból?
A publikált eredmények alapján a keretrendszer:
- akár 3,0× több kérést tud kiszolgálni azonos infrastruktúrán,
- vagy 1,5× szigorúbb SLO-t tud tartani (azaz kisebb megengedett késleltetés mellett stabil),
- Ă©s akár 4,4Ă— nagyobb throughputot ad a korábbi rendszerekhez viszonyĂtva.
A gyakorlati következtetés: ha egy intézmény (iskola, kórház, szolgáltató) eddig azért nem mert valós idejű multimodális AI-t bevezetni, mert “GPU-ból úgysem lesz elég”, akkor itt egy kellemetlen igazság: sok esetben nem a GPU kevés, hanem a kiszolgálás pazarló.
Mi köze mindennek az egészségügyhöz és az EdTech-hez?
A legjobb rendszermérnöki ötletek gyakran ott születnek, ahol nagy a forgalom és drága a késés. Az MLLM-ek kiszolgálása pontosan ilyen. És ez két iparágban különösen releváns.
EgĂ©szsĂ©gĂĽgy: gyorsabb kĂ©pi triázs, megbĂzhatĂłbb telemedicina
Az egészségügyi AI sokszor multimodális:
- képalkotás (röntgen, CT, MR) + lelet szöveg,
- fotó (bőr, szemfenék) + anamnézis,
- videó (mozgás, remegés) + klinikai kérdések.
Ha a rendszer kĂ©sik, a klinikus nem fog várni, hanem visszatĂ©r a rĂ©gi rutinokhoz. Itt a GPU-idĹ‘zĂtĂ©s Ă©s erĹ‘forrás-megosztás nem “infra finomhangolás”, hanem adoptálhatĂłsági feltĂ©tel.
EdTech: személyre szabott tanulás multimodális inputból
A „MestersĂ©ges intelligencia az oktatásban Ă©s EdTech terĂĽleten” sorozatban gyakran beszĂ©lĂĽnk adaptĂv tanulási utakrĂłl, automatikus Ă©rtĂ©kelĂ©srĹ‘l, tanulĂłi analitikárĂłl. A következĹ‘ lĂ©pcsĹ‘ viszont egyre inkább multimodális:
- dolgozatfotĂł → automatikus javĂtás,
- táblakép → jegyzetgenerálás,
- prezentációvideó → kommunikációs visszajelzés,
- laborvideó → lépésről lépésre hibakeresés.
Ezeknél nem elég, hogy “pontosan értékel” a modell. Gyorsan kell reagálnia, különben a diák már továbbkattintott.
Gyakorlati ellenőrzőlista: mit csinálj másként, ha MLLM-et szolgálsz ki?
Ha a csapatod MLLM inferenciát Ă©pĂt (akár egĂ©szsĂ©gĂĽgy, akár EdTech), ez a 7 pontos lista segĂt elkerĂĽlni a tipikus zsákutcákat.
- Mérd külön a TTFT-et és a tokenenkénti késleltetést. Ne egyetlen “átlagos latency” számot nézz.
- Profilozd a pipeline-t szakaszonként. Előfeldolgozás / vision encoder / prefill / decoding.
- Kezeld a videódekódolást elsőrendű rendszerkomponensként. Ne “mellékfeladat” legyen.
- Ne kĂ©nyszerĂts mindent közös batch-be. A heterogĂ©n szakaszoknál a tĂşlzott co-batching visszaĂĽthet.
- Ütemezés > több vas. Előbb nyerd vissza az üresjáratot, utána vegyél új GPU-t.
- SLO-alapĂş tervezĂ©s. Mondd ki, hogy pl. TTFT ≤ 800 ms vagy ≤ 1,2 s – Ă©s ahhoz igazĂts mindent.
- Interferencia-tudatos megosztás. Ha megosztod a GPU-t, figyeld, mikor zavarják egymást a szakaszok.
Egy mondatban: a multimodális AI-nál a “valós idejű” nem varázslat. Ütemezés, erőforrás-megosztás, és könyörtelen mérés.
Merre megy ez 2026-ban? (és miért érdemes most foglalkozni vele)
2026-ban az EdTech platformoknál a videĂłs Ă©s kĂ©pi tartalom csak nĹ‘ni fog: projektmunkák, portfĂłliĂłk, hibrid Ăłrák felvĂ©telei, AI-alapĂş korrepetálás kĂ©pernyĹ‘megosztással. Az egĂ©szsĂ©gĂĽgyben pedig a telemedicina Ă©s a kĂ©pi triázs skálázása marad napirenden. MindkĂ©t terĂĽleten ugyanaz lesz a döntĹ‘: kiszámĂthatĂł kĂ©sleltetĂ©s Ă©s stabil kiszolgálás csĂşcsidĹ‘ben.
Ha ezen a ponton azt Ă©rzed, hogy a szervezeted “jĂł modellt választott, mĂ©gis lassú”, akkor valĂłszĂnűleg nem modellvitát kell nyitni, hanem egy infrastruktĂşra-vitát: hol blokkol a pipeline, hol tĂ©tlen a GPU, Ă©s mennyi idĹ‘ megy el dekĂłdolásra.
Ha szeretnĂ©l olyan MLLM-architektĂşrát tervezni (oktatás vagy egĂ©szsĂ©gĂĽgy), ami tĂ©nyleg bĂrja a valĂłs terhelĂ©st, Ă©rdemes a következĹ‘ beszĂ©lgetĂ©st ezzel kezdeni: mennyi a TTFT cĂ©l, Ă©s melyik szakasz a szűk keresztmetszet ma?