Veri Az, Etki Büyük: Akıllı Fabrikalar için Molmo 2

Üretim ve Akıllı Fabrikalarda Yapay ZekâBy 3L3C

Molmo 2 gibi veri verimli multimodal AI yaklaşımları, akıllı fabrikalarda kalite kontrol ve kestirimci bakım maliyetini düşürür. Pilot adımlarını öğrenin.

Molmo 2multimodal AIvideo analitiğikalite kontrolkestirimci bakımrobotik otomasyon
Share:

Featured image for Veri Az, Etki Büyük: Akıllı Fabrikalar için Molmo 2

Veri Az, Etki Büyük: Akıllı Fabrikalar için Molmo 2

Fabrikada yapay zekâ projesi başlatanların çoğu aynı duvara tosluyor: model değil, veri darboğazı. Kamera görüntüleri var ama etiket yok. Video var ama “şu saniyede, şu pikselde anomali” diyebileceğiniz yer işaretleri yok. Üstelik 2025’in sonunda, enerji ve altyapı maliyetleri bu kadar yakıcıyken, “daha fazla GPU kiralayalım, daha çok veri toplayalım” yaklaşımı artık pek az şirkete mantıklı geliyor.

Tam da bu yüzden Ai2’nin (Allen Institute for AI) duyurduğu Molmo 2 gibi “daha az veriyle daha çok iş” iddiası taşıyan modeller, akıllı fabrika gündemine doğrudan oturuyor. Molmo 2’nin vaadi sadece daha iyi görüntü anlama değil; video içinde nerede/ne zaman sorusuna piksel ve zaman damgası düzeyinde yanıt verebilmek. Üretimde bu, “bir şeyler ters gidiyor” demekten çıkıp “tam şurada başladı, şuraya evrildi” diyebilmek anlamına geliyor.

Bu yazıda Molmo 2 haberini, “Üretim ve Akıllı Fabrikalarda Yapay Zekâ” serisinin bakış açısıyla ele alacağım: veri maliyeti, ölçeklenebilirlik, robotik otomasyon ve kalite kontrol açısından ne ifade ediyor, hangi senaryolarda hemen değer üretir, hangi tuzaklara düşmemek gerekir.

Molmo 2 neden akıllı fabrikalar için önemli?

Kısa cevap: Molmo 2’nin öne çıkan tarafı, video ve görüntü verisini sadece “tanımlamakla” kalmayıp uzamsal (piksel) ve zamansal (timestamp) olarak bağlayabilmesi. Bu, üretimde kalite, güvenlik ve bakım gibi alanlarda doğrudan ölçülebilir sonuçlar üretir.

Molmo 2, Ai2’ye göre 8B parametreli olmasına rağmen önceki 72B’lik Molmo sürümünü doğruluk ve grounding (piksel düzeyi konumlama) gibi alanlarda geride bırakıyor. Daha da kritik nokta şu: Modelin eğitiminde kullanılan video sayısı yaklaşık 9,19 milyon; benzer sınıftaki bazı yaklaşımlarda veri büyüklüğü on milyonlarca videoya çıkabiliyor.

Üretim tarafında bunun tercümesi net:

  • Daha küçük/kompakt modeller, sahaya yakın (edge) dağıtımda daha gerçekçi olur.
  • Daha az veriyle eğitim yaklaşımı, her tesisin kendine özgü koşullarına (kamera açısı, ışık, ürün varyantı, operatör davranışı) uyarlamayı kolaylaştırır.
  • Şeffaflık ve tekrarlanabilirlik (open weights + açık veri), “model neden böyle karar verdi?” tartışmalarını teknik olarak daha sağlam zemine taşır.

Benim tecrübem şu: Akıllı fabrika projelerinde başarıyı belirleyen şey çoğu zaman “model seçimi” değil, saha verisinin maliyetini yönetebilme ve modeli operasyonun diline çevirebilme.

“Az veriyle öğrenme” fabrikada maliyeti nasıl düşürür?

Kısa cevap: Veri toplama ve etiketleme maliyeti, yapay zekâ bütçesinin en büyük kalemi olabilir; veri verimliliği doğrudan toplam sahip olma maliyetini (TCO) düşürür.

Fabrika videolarında etiketleme iki yüzden pahalıdır:

  1. Uzmanlık gerektirir: Kusurun tipi, toleranslar, proses adımları.
  2. Zaman eksenini yönetmek zordur: “Hangi saniyede başladı?” sorusu çoğu zaman tek kare etiketlemekten daha maliyetlidir.

Molmo 2’nin iddia ettiği gibi frame-level uzamsal ve zamansal grounding, şu işlere kapı açar:

Daha hızlı “kabul edilebilir etiket” üretimi

Bir kalite mühendisi, modeli bir videoya koşturup “şu segmentler doğru, şuralar yanlış” şeklinde denetleyebilir. Sıfırdan etiketlemek yerine doğrulama yaparsınız. Bu, etiket üretim süresini ciddi biçimde kısaltır.

Veri azlığını “akıllı örnek seçimi” ile yönetme

Her videoyu eğitim setine koymak gerekmiyor. İyi bir strateji:

  • Normal akıştan az sayıda temsilci örnek
  • Her kusur tipinden az ama net örnek
  • En fazla hata yapılan koşullardan (yansıma, buhar, toz, gece vardiyası) hedefli örnek

Modeliniz video içinde “nerede/ne zaman” sorusuna iyi yanıt veriyorsa, aktif öğrenme (modelin kararsız kaldığı örnekleri seçme) döngüsü çok daha verimli çalışır.

Multimodal video anlama: Kalite kontrol ve hat izleme için pratik senaryolar

Kısa cevap: Video anlama + konumlama, kalite kontrolde “tespit”i “kanıt”a dönüştürür; izlenebilirlik ve kök neden analizi hızlanır.

Molmo 2’nin öne çıkan yetenekleri; video pointing, çok kareli akıl yürütme, çoklu nesne takibi ve uzun video açıklama. Bunları üretim diline çevirelim.

Anomali tespiti: “Şüpheli olay” değil, olayın izi

Görüntü tabanlı anomali sistemleri çoğu zaman “bu video anormal” der, sonra ekip sahada ne arayacağını bilemez. Eğer sistem şunu diyebiliyorsa değer artar:

  • “12:14:07’de konveyörün sağ kenarında ürün hizası bozuldu.”
  • “12:14:09’da robot gripper kapanma süresi uzadı; ürün kaydı.”

Bu, bakım ekibinin arıza avcılığını kısaltır. Üstelik raporlama tarafında da yönetilebilir bir çıktı üretir.

Çoklu nesne takibi: Paketleme ve intralojistikte “sayım tutmuyor” problemini bitirmek

Paketleme hattında, bir kolide kaç parça girdi/çıktı, hangi aralıkta kayıp oldu?

  • Çoklu nesne takibi + sayım, hatalı sayım ve eksik ürün senaryolarını otomatik bayraklayabilir.
  • Occlusion (örtüşme) ve sahne değişimi gibi zorluklarda nesne kimliğini koruyabilmek, gerçek üretim koşullarında kritik.

Uzun video açıklama: Denetim ve izlenebilirlik için aranabilir kayıt

Ai2’nin paylaştığı detaylardan biri, uzun video açıklama verisinin “çok uzun metinler” üretebildiği. Fabrika tarafında bunun pratik faydası:

  • Olay kayıtlarını “metin gibi” arayabilme (vardiya raporu mantığı)
  • EHS (iş güvenliği) ve kalite denetimlerinde hızlı inceleme

Elbette burada veri gizliliği ve erişim kontrolü iyi tasarlanmalı; buna aşağıda değineceğim.

Robotik otomasyonda video grounding neyi değiştirir?

Kısa cevap: Robot için “görmek” yetmez; konum + zaman gerekir. Video grounding, robotların sensör akışını daha güvenli yorumlamasına yardım eder.

Üretimde robotik otomasyon (kolaboratif robotlar, pick&place, paletleme, hücre içi taşıma) üç sebepten zor:

  1. Sahne değişkendir (ışık, yansıma, ürün varyantı)
  2. Güvenlik kritik (insan-robot yakın çalışma)
  3. Hata pahalıdır (durma, hurda, iş kazası)

Molmo 2 gibi modellerin “piksel koordinatı ve zaman damgası” üretmesi, şu iki noktada önemli:

  • İnsan denetimi: Operatör, modelin işaretlediği bölgeyi görür; “neden böyle dedi?” sorusu görsel olarak yanıtlanır.
  • Kontrol döngüsü: Robot kontrolü için ham haliyle kullanılmasa bile, anomali/olay çıkarımı kontrol mantığını besleyebilir (ör. hız düşür, durdur, yeniden dene, operatör çağır).

Burada net bir duruşum var: Genel amaçlı multimodal modeli robot kontrolünün tam merkezine koymak yerine, önce “algı ve teşhis katmanı” olarak konumlamak daha güvenli ve daha hızlı değer üretir.

Kestirimci bakım: “Titreşim verisi” kadar “görüntü verisi” de konuşmalı

Kısa cevap: Kestirimci bakımın bir sonraki adımı, sensörlerle kameraları aynı hikâyede birleştirmek; multimodal yaklaşım bunu kolaylaştırır.

Türkiye’de kestirimci bakım projeleri genelde titreşim, sıcaklık, akım gibi sinyallerle başlar. Haklı bir başlangıç; çünkü ölçüm kolaydır. Ama sahada şu gerçekle karşılaşırsınız:

  • Aynı titreşim artışı bazen normaldir (yük değişimi), bazen arızadır.

Video ve görüntü verisi, bağlam sağlar:

  • Kayış kaçırıyor mu?
  • Yağ sızıntısı var mı?
  • Operatör müdahalesi oldu mu?
  • Parça akışı sıkıştı mı?

Molmo 2’nin zaman eksenini iyi kurması, bakım olaylarını “öncesi-sonrası” ile anlamlandırmayı destekler. Bir bakım alarmını, aynı zaman aralığındaki video işaretleriyle birleştirdiğinizde, bakım ekibinin “hangi arızaya koşuyoruz?” karar kalitesi yükselir.

Açık modelleri fabrikaya taşırken 5 kritik kontrol noktası

Kısa cevap: Açık ağırlıklar hız kazandırır ama kurumsal riskleri ortadan kaldırmaz; veri, güvenlik ve MLOps disiplini şart.

Molmo 2’nin açık veri ve açık ağırlık vurgusu, Ar-Ge ekipleri için ciddi avantaj. Yine de üretim ortamına geçerken şu kontrol listesini şart görüyorum:

  1. Veri gizliliği ve KVKK uyumu: Kamera görüntülerinde çalışan yüzleri, ekranlar, müşteri etiketleri olabilir. Maskeleme/pseudonymization hattı kurun.
  2. Model sınırları: Modelin güvenilir olmadığı koşulları tanımlayın (buhar, düşük ışık, kamera kirlenmesi).
  3. Sahada izleme (monitoring): Drift kaçınılmaz. Vardiya bazlı performans takibi yapın.
  4. İnsan-onayı akışı: Özellikle durdurma/geri çağırma gibi kararlar için insan onayı kurgusu kurun.
  5. Pilot tasarımı: Bir hat, bir ürün ailesi, net KPI (hurda oranı, duruş süresi, yanlış alarm oranı).

Bu maddeler atlandığında, en iyi model bile “demo başarısı”nda kalır.

30 günde başlayabileceğiniz bir pilot: Video ile kalite ve duruş azaltma

Kısa cevap: Tek bir hücrede, tek bir problem seçin; modelden “işaret + açıklama” çıktısı alın; operatörle doğrulayın.

Aşağıdaki pilot çerçevesi pratik çalışır:

  1. Problem seçimi (Gün 1-3): Örn. konveyörde hizalama hatası, paketleme sayım kaçığı, robot pick başarısızlığı.
  2. Veri toplama (Gün 4-10): 30-50 saat video + olay logları (PLC/SCADA alarm zamanları).
  3. İlk model denemesi (Gün 11-15): Video segmentleme + olay anı işaretleme + basit anomali bayrakları.
  4. Operatör doğrulaması (Gün 16-22): Yanlış alarmları sınıflandırın: ışık, ürün varyantı, kamera açısı.
  5. KPI raporu (Gün 23-30):
    • Yanlış alarm oranı
    • Kaçırılan olay oranı
    • Olay inceleme süresi (dakika)
    • Duruş süresi etkisi (hedef: ölçülebilir azalma)

Bu yaklaşım, “model eğitiminden” çok operasyonel kazanım konuşmanızı sağlar. Lead üretimi açısından da en doğru yol bu: gerçek KPI üzerinden net bir iş vakası.

Sıradaki adım: Daha az veriyle daha hızlı ölçek

Akıllı fabrikalarda yapay zekânın geleceği, sadece daha büyük modellerde değil; daha az veriyle uyarlanabilir, sahada yönetilebilir modellerde. Molmo 2’nin veri verimliliği ve video içinde piksel/zaman temelli işaretleme yaklaşımı, kalite kontrol, kestirimci bakım ve robotik otomasyon projelerinde “ölçeklenebilirlik” tartışmasını daha gerçekçi hale getiriyor.

Eğer 2026 planlarınızda görüntü tabanlı kalite kontrol, anomali tespiti veya robot hücresi güvenliği varsa, kendinize şu soruyu sorun: Bizim asıl darboğazımız model mi, yoksa sahadan doğru veriyi hızlıca üretmek mi?

Bir pilot tasarlayıp, veriyi büyütmeden önce değeri kanıtlamak çoğu zaman en doğru hamle. İsterseniz bir sonraki yazıda, fabrika ortamında multimodal sistemler için örnek bir MLOps + veri yönetişimi mimarisini adım adım anlatacağım.

🇹🇷 Veri Az, Etki Büyük: Akıllı Fabrikalar için Molmo 2 - Turkey | 3L3C