Multimodális AI a gyártásban: kevesebb adatbĂłl pontosabb videĂłs megĂ©rtĂ©s. MinĹ‘sĂ©g, biztonság, betanĂtás – gyorsabb pilotokkal.

Kevesebb adat, több haszon: multimodális AI a gyárban
A legtöbb gyártĂł ugyanott csĂşszik el, ahol a legtöbb EdTech-projekt is: azt hiszi, hogy az AI-hoz elĹ‘ször „rengeteg adatot” kell összekaparni. A valĂłság sokkal prĂłzaibb. A döntĹ‘ kĂ©rdĂ©s nem az, hogy hány terabájt videĂłnk van, hanem az, hogy milyen gyorsan tudjuk a rendszert megtanĂtani a saját környezetĂĽnkre – legyen az egy tantermi kamera kĂ©pe vagy egy gyártĂłsori vizuális ellenĹ‘rzĹ‘ állomás.
2025.12.21-Ă©n az Ai2 (Allen Institute for AI) bejelentette a Molmo 2 multimodális modellcsaládot, Ă©s a legĂ©rdekesebb állĂtásuk nem az, hogy „erĹ‘s”, hanem az, hogy kevesebb tanĂtĂładattal is versenykĂ©pes. A gyártásban ez aranyat Ă©r: a gyártĂłsori videĂłk cĂmkĂ©zĂ©se drága, a hibák ritkák, a folyamatok változnak, Ă©s sokszor a GDPR/ĂĽzleti titok miatt nem is akarunk mindent felhĹ‘be tolni.
Ebben a cikkben azt bontom ki, miĂ©rt számĂt a „kevesebb adatbĂłl többet” megközelĂtĂ©s az okosgyárakban, hogyan kapcsolĂłdik az Ipar 4.0-hoz, Ă©s mi köze van mindehhez az AI az oktatásban Ă©s EdTech tĂ©masorozatunkhoz (spoiler: a tanulási görbe, a visszajelzĂ©s Ă©s az adatminĹ‘sĂ©g ugyanaz a törtĂ©net, csak más helyszĂnen).
Mit üzen a Molmo 2 a gyártásnak (nem csak a kutatóknak)
A lĂ©nyeg: a Molmo 2 olyan multimodális kĂ©pessĂ©geket hangsĂşlyoz, amelyek a gyártĂłsori kamerakĂ©pekbĹ‘l Ă©s videĂłkbĂłl „cselekvő” informáciĂłt csinálnak – Ă©s mindezt a beszámolĂł szerint jĂłval kevesebb tanĂtĂłvideĂłval, mint több hasonlĂł megoldás.
Az Ai2 a következőket emeli ki:
- TĂ©rbeli Ă©s idĹ‘beli „grounding” kĂ©pkocka-szinten: nem csak leĂrja, mi törtĂ©nik, hanem hol Ă©s mikor (pixelek, pozĂciĂłk, idĹ‘bĂ©lyegek).
- Több objektum követése és számlálása: objektum-azonosság megőrzése takarás, jelenetváltás, hosszabb klipek alatt.
- HosszĂş, rĂ©szletes videĂłleĂrás Ă©s anomáliadetektálás: kereshetĹ‘, sűrű leĂrások + szokatlan esemĂ©nyek jelzĂ©se.
A szám, ami megfogja a gyártási vezetĹ‘k figyelmĂ©t: az Ai2 szerint a Molmo 2-t 9,19 milliĂł videĂłn trĂ©ningeltĂ©k, szemben egy másik ismert rendszer 72,5 milliĂłs nagyságrendjĂ©vel. A gyártás nyelvĂ©n ez Ăgy hangzik: ha kevesebb adatbĂłl is meg tudom oldani, kisebb a bevezetĂ©si költsĂ©g Ă©s gyorsabb az idĹ‘ az elsĹ‘ eredmĂ©nyig.
Miért fontos a pixeles pontosság a „minőségellenőrzés AI”-ban?
A vizuális QC-ben (quality control) nem elég az, hogy „hibás a termék”. A gyártás azt kérdezi: hol hibás? mekkora? melyik művelet után? ismétlődik-e ugyanott?
A kĂ©pkocka-szintű, pixel-koordinátákat adĂł megközelĂtĂ©s segĂt abban, hogy:
- a hibát vissza tudd kötni konkrét állomásokhoz (folyamatfejlesztés),
- a kezelőnek egyértelmű jelölést adj (kevesebb félreértés),
- a vitás eseteket dokumentáld (audit, reklamáciĂł, beszállĂtĂłi egyeztetĂ©s).
Ez a fajta „mutatás” egyĂ©bkĂ©nt nagyon hasonlĂt az EdTech világához: egy jĂł digitális tutor nem csak azt mondja, hogy rossz a válasz, hanem azt is, hogy pontosan hol csĂşszott el a gondolatmenet.
„Nincs elég adatunk” – a legdrágább tévhit az okosgyárban
A lényeg: a gyártásban az adat ritkán „nagy”, inkább „szétszórt, zajos és drága”.
Egy tipikus magyar/eurĂłpai közepes ĂĽzemnĂ©l a valĂłság Ăgy nĂ©z ki:
- van pár kamera a kritikus pontokon,
- a hibák aránya alacsony (ez jĂł), ezĂ©rt kevĂ©s a „pozitĂv” tanĂtĂłpĂ©lda,
- minden új termék vagy szerszámcsere új adatdisztribúciót hoz,
- a cĂmkĂ©zĂ©s szakĂ©rtelmet igĂ©nyel (minĹ‘sĂ©gĂĽgy, technolĂłgus),
- sok adat nem hagyhatja el a telephelyet.
Ilyenkor a „hozzunk még 50 millió videót” nem stratégia, hanem menekülés.
A Molmo 2 ĂĽzenete (Ă©s a trend, ami mögötte van) az, hogy a fejlĹ‘dĂ©s egyik iránya: jobb architektĂşra + jobb tanĂtási receptek + jobb nyĂlt adatkĂ©szletek → kevesebb adatigĂ©ny ugyanahhoz (vagy jobb) teljesĂtmĂ©nyhez.
Mit jelent ez a költségekben? (gyakorlati bontás)
Ha egy vizuális projektben a cĂmkĂ©zĂ©s eddig a költsĂ©g 30–60%-át vitte el, akkor minden, ami csökkenti a cĂmkĂ©zendĹ‘ mennyisĂ©get vagy gyorsĂtja a tanĂtást, közvetlenĂĽl javĂtja a megtĂ©rĂĽlĂ©st.
Három kézzelfogható hatás:
- Gyorsabb pilot: kevesebb adatbĂłl lehet Ă©rtelmes prototĂpust csinálni.
- Olcsóbb iteráció: könnyebb finomhangolni termékváltásnál.
- Kisebb adatkezelési kockázat: kevesebb adatmozgatás, egyszerűbb megfelelés.
Multimodális AI az okosgyárban: 5 konkrét felhasználás 2026-ra
A lényeg: a multimodális AI akkor ad üzleti értéket, amikor a videót összeköti eseményekkel, idővel és döntésekkel.
1) Valós idejű minőségellenőrzés ritka hibáknál
A ritka hibák (karc, sorja, hiányzĂł alkatrĂ©sz, rossz cĂmke) tipikusan azok, amelyekhez kevĂ©s tanĂtĂłpĂ©lda van. A kĂ©pkocka- Ă©s pixel-szintű „grounding” segĂt abban, hogy a rendszer ne csak osztályozzon, hanem lokalizáljon.
Gyakorlati minta:
- Kamera a kimenő ellenőrzésnél
- Modell jelzi: „karc” + pontos terület
- Operátor validál → visszacsatolás a tanĂtĂłhalmazba
Ez az „ember a körben” logika ugyanaz, mint az adaptĂv EdTech rendszerekben: rövid ciklusĂş visszajelzĂ©s, cĂ©lzott javĂtás.
2) Anomáliadetektálás hosszú folyamatoknál (nem csak egy pillanatkép)
Sok hiba nem egy képkockán látszik, hanem folyamatjelenség: például csomagolóanyag felgyűrődik, szalag megcsúszik, robot megáll egy furcsa mintázat szerint.
A hosszabb videĂłs megĂ©rtĂ©s Ă©s az anomáliák jelzĂ©se abban segĂt, hogy:
- előbb észrevedd a „még nem állt le, de már nem egészséges” állapotot,
- csökkentsd a selejtet a leállás előtt,
- tisztábban lásd az ok-okozatot (mikor kezdődött, mi váltotta ki).
3) Több objektum követése: WIP, tálcák, ládák, alkatrészek
A többobjektumos követĂ©s nem látványos, de pĂ©nzt termel. Ha a rendszer megbĂzhatĂłan követi a tárgyakat takarás Ă©s zsĂşfoltság mellett is, akkor:
- csökken a keresési idő és az elveszett WIP,
- javul a belső logisztika pontossága,
- tisztább lesz a nyomonkövethetőség.
4) Vizuális „oktatás” a shopflooron: mikrotananyag a valós hibákból
Itt jön be erősen a témasorozatunk (AI az oktatásban, EdTech): a gyártósor egy tanuló környezet. A kérdés csak az, hogy tanul-e belőle a szervezet.
Ha a rendszer kĂ©pes rĂ©szletesen leĂrni esemĂ©nyeket Ă©s rámutatni a kritikus pillanatra, abbĂłl gyorsan kĂ©szĂĽlhet:
- 2–3 perces belső tréningvideó,
- „hibakatalógus” valódi példákkal,
- Ăşj belĂ©pĹ‘k számára vizuális munkautasĂtás-kiegĂ©szĂtĂ©s.
A legjobb gyárak nem csak automatizálnak, hanem tanĂtanak is.
5) Biztonság és megfelelés: veszélyes közelségek, tiltott zónák
A videĂłs követĂ©s Ă©s idĹ‘bĂ©lyeges esemĂ©ny-azonosĂtás használhatĂł:
- PPE (védőeszköz) viselés ellenőrzésére,
- tiltott zónába lépés jelzésére,
- veszélyes ember–gép közelségek detektálására.
A biztonsági alkalmazásoknál kĂĽlönösen fontos a transzparencia Ă©s reprodukálhatĂłság, ezĂ©rt az Ai2 nyĂlt sĂşlyokra Ă©s nyĂlt adatokra Ă©pĂtĹ‘ iránya itt is releváns.
NyĂlt modellek Ă©s „receptek”: miĂ©rt számĂt a transzparencia a gyártásban?
A lĂ©nyeg: egy zárt, fekete doboz videĂłs AI-t nehĂ©z auditálni, nehĂ©z javĂtani, Ă©s nehĂ©z hosszĂş távon fenntartani.
Az Ai2 hangsúlyozza, hogy a Molmo 2 körül:
- elérhetők a modellek,
- elérhetők az értékelési eszközök,
- elĂ©rhetĹ‘k Ăşj nyĂlt adatkĂ©szletek,
- Ă©s technikai riportban leĂrják a tanĂtási forrásokat.
Gyártási környezetben ez azĂ©rt jĂł hĂr, mert a csapatod:
- jobban megérti, mire képes és mire nem,
- könnyebben Ă©pĂt rá saját kĂsĂ©rleteket,
- egyszerűbben bizonyĂt megfelelĹ‘sĂ©get belsĹ‘ auditon.
Nem azt állĂtom, hogy mindenre a nyĂlt modell a válasz. De azt igen, hogy ha egy folyamat kritikus, akkor a „mert a vendor azt mondta” nem elĂ©g.
Gyors bevezetési terv: 30 napos pilot „kevesebb adat” logikával
A lényeg: ne tökéletes adatgyűjtéssel kezdj, hanem egy olyan feladattal, ahol az AI már kevés példából is értéket ad.
- 1–2 fĂłkusz-esemĂ©ny kiválasztása (pl. hiányzĂł alkatrĂ©sz, rossz cĂmke, megállás elĹ‘tti rendellenes mozgás)
- Adatminimalista gyűjtés: 1–2 kamera, 1 műszak, célzott minták
- „Mutatás” alapú visszajelzés: a kezelő ne csak „OK/NOK”-ot adjon, hanem jelölje a hibaterületet (ha van rá eszköz)
- Heti iteráció: minden hét végén rövid retréning/finomhangolás és kiértékelés
- Üzleti mérőszámok: selejt, utómunkázás ideje, állásidő, reklamációk száma
EdTech párhuzam: a jĂł adaptĂv tanulási rendszer is Ăgy működik. Kicsiben indul, gyors visszajelzĂ©st kĂ©r, Ă©s iterál.
Zárás: a „kevesebb adat” nem spórolás, hanem stratégia
A Molmo 2 kapcsán a legfontosabb gondolat számomra ez: a multimodális AI akkor lesz igazán ipari eszköz, amikor nem kĂ©nyszerĂt rá irreális adatgyűjtĂ©sre. Ha a modellek kĂ©pesek pontosan megmondani, hol Ă©s mikor törtĂ©nik valami a videĂłban, az a gyártásban azonnal átfordĂthatĂł minĹ‘sĂ©gre, biztonságra Ă©s hatĂ©konyságra.
És igen: ezĂ©rt fĂ©r bele ez a tĂ©ma az „AI az oktatásban Ă©s EdTech” sorozatba is. Mert a gyár – ugyanĂşgy, mint egy digitális tanulási platform – egy visszacsatolt rendszer. Aki gyorsabban tanul a saját adataibĂłl, az gyorsabban javĂt a folyamataibĂłl is.
Ha 2026-ban okosgyárat Ă©pĂtesz (vagy csak okosabbá tennĂ©d a meglĂ©vĹ‘t), Ă©n egy dolgot biztosan felĂrnĂ©k a falra: ne nagy adatot hajszolj, hanem jĂł tanulási ciklust. Te hol kezdenĂ©d: minĹ‘sĂ©g, karbantartás, vagy belsĹ‘ betanĂtás?