CXL & OmniConnect: Memori AI Untuk Kilang Pintar

AI dalam Pembuatan (Elektronik, Automotif, Semikonduktor)••By 3L3C

Dinding memori kini jadi penghalang utama AI di kilang. CXL & OmniConnect membuka jalan kepada memori TB-level yang mampu milik untuk pembuatan pintar.

CXLAI pembuatankilang pintarsemikonduktorautomotifmemori AIHPC industri
Share:

CXL & OmniConnect: Memori AI Untuk Kilang Pintar

Pada 2025, ramai pengeluar AI melaporkan satu corak yang sama: penggunaan GPU dan XPU naik berkali ganda, tapi throughput sebenar sistem tak naik selari. Puncanya bukan lagi cip yang “tak cukup laju”, tapi memori yang tak mampu mengejar AI.

Bagi kilang elektronik, automotif dan semikonduktor di Malaysia — daripada Penang sampai Kulim — isu ini terus terasa dalam projek kilang pintar, visi komputer untuk QC, dan perancangan HPC di pusat data. Model semakin besar, kamera semakin banyak, tapi RAM di sekeliling cip tak cukup dan terlalu mahal.

Artikel asal EE Times tentang Credo Weaver dan keluarga OmniConnect sebenarnya cerita asas kepada satu perkara lebih besar: bagaimana CXL dan seni bina memori baharu membuka ruang untuk AI peringkat kilang, bukan hanya di pusat data gergasi. Dalam siri “AI in Manufacturing (Electronics, Automotive, Semiconductor)” ini, saya nak kaitkan teknologi itu dengan realiti kilang di Malaysia.


Masalah Sebenar AI di Kilang: Bukan GPU, Tapi Dinding Memori

Masalah utama AI dalam persekitaran pembuatan moden ialah dinding memori (memory wall): kuantiti dan throughput memori jadi had sebenar, bukan kuasa kiraan.

Untuk kilang pintar, kesannya sangat nyata:

  • Sistem visi QC perlu proses beribu imej sesaat dari pelbagai kamera
  • Robot kolaboratif (cobot) guna model AI yang besar untuk pergerakan yang lebih selamat dan tepat
  • Perancangan pengeluaran guna model peramalan dan pengoptimuman yang kompleks

Semua ini memerlukan:

  • Kapasiti memori besar – supaya keseluruhan model boleh duduk dekat dengan XPU/GPU
  • Lebar jalur (bandwidth) tinggi – supaya inferens tak tersekat menunggu data
  • Penggunaan kuasa terkawal – sebab bil elektrik kilang dan pusat data bukan kecil

Hari ini, banyak reka bentuk bergantung kepada:

  • LPDDR5/LPDDR5X dan GDDR – laju, tapi terhad dari segi kepadatan dan kuasa
  • HBM – sangat laju, tapi mahal dan tidak sentiasa mudah diperoleh dalam volum besar

Dalam kata lain, bagi banyak aplikasi AI di kilang, HBM terlalu “overkill” dan mahal, manakala LPDDR/GDDR pula cepat menjadi sempit laluan. Di sinilah Weaver dan CXL versi “stripped down” mula masuk sebagai pilihan praktikal.


Apa Sebenarnya Credo Weaver & OmniConnect Buat?

Secara ringkas, Credo Weaver ialah cip memory fanout gearbox dalam keluarga OmniConnect yang:

  • Menggunakan 112G VSR SerDes berketumpatan tinggi
  • Menyambung kepada LPDDR5X sebagai memori asas
  • Memanfaatkan struktur CXL FLIT yang diringkaskan untuk latensi rendah dan kuasa rendah

3 Perkara Kritikal Yang Weaver Ubah

  1. Pindahkan memori keluar dari “pakej besar”
    Reka bentuk tradisional menampal LPDDR di atas/keliling cip inferens pada satu substrat besar.

    • Had biasa: ~16 stack memori
    • Kapasiti maks: kira-kira 256 GB
    • Bandwidth: sekitar 1.3 TB/s

    Hasilnya, seluruh tepi cip dipenuhi antaramuka memori, susah nak skala lebih jauh.

  2. Ganti laluan selari lebar dengan SerDes berkelajuan tinggi
    Weaver menggunakan sambungan 112G SerDes yang:

    • Capai sehingga 2 Tbit/mm di “beachfront” cip
    • Jarak sehingga 250 mm dengan kuasa sekitar 1 pJ/bit
    • Latensi sekitar 40 ns round trip selepas lapisan data CXL diperkemas

    Ini bermakna memori tak perlu lagi duduk rapat di sebelah XPU. Ia boleh berada sehingga lebih kurang 10 inci dari cip, pada papan skala pelayan.

  3. Skala kepadatan & bandwidth dengan LPDDR5X
    Dengan seni bina ini, Barnetson (VP Produk Credo) menyebut:

    Sehingga 6.4 TB kapasiti memori dan 16 TB/s bandwidth boleh dicapai menggunakan LPDDR5X.

    Itu lebih kurang 30x peningkatan kepadatan memori efektif, tanpa perlu bergantung hanya kepada HBM.

Bagi pengilang, ini bukan sekadar nombor cantik di slaid. Ini bermaksud lebih banyak model boleh hidup dalam memori, kurang paging dan offloading, dan lebih stabil untuk operasi 24/7 di kilang.


CXL “Stripped Down”: Kenapa Penting Untuk AI Pembuatan

CXL (Compute Express Link) direka sebagai protokol piawai untuk memori dikongsi dan sambungan CPU–accelerator. Masalahnya, implementasi penuh CXL kadangkala berat dan agak mahal dari sudut kuasa dan kerumitan.

Credo ambil pendekatan berbeza:

  • Kekalkan struktur CXL FLIT yang cekap dan berkelebihan rendah
  • Buang ciri yang tak kritikal untuk jarak pendek dan AI inferens, seperti speed hopping
  • Reka pemetaan AXI over SerDes yang sangat cekap dan ringkas

Hasilnya ialah satu bentuk CXL yang lebih “ringan” tetapi:

  • Cukup piawai untuk serasi dengan ekosistem
  • Cukup ringkas untuk latensi dua digit nanosecond dan kuasa yang sangat rendah

Kenapa Ini Sesuai Untuk Kilang Pintar

Dalam konteks AI pembuatan:

  • Latensi penting – QC berasaskan visi, pemantauan getaran motor, atau kawalan robot memerlukan tindak balas sub-milisaat
  • Konsistensi penting – sistem perlu stabil 24/7, bukan “meletup” prestasi hanya untuk beban ujian
  • Kos penting – kilang perlu ROI yang jelas, bukan hanya “teknologi paling canggih” di atas kertas

CXL yang diperkemas di atas SerDes kuasa rendah memberi kombinasi:

  • Latensi cukup rendah untuk kerja inferens kilang
  • Kapasiti dan bandwidth cukup besar untuk model moden (contoh: visi komputer multi-kamera)
  • Struktur senibina yang modular – mudah dirancang untuk generasi papan berikutnya tanpa tukar sepenuhnya asas sistem

Aplikasi Nyata di Kilang Elektronik, Automotif & Semikonduktor

Bagaimana semua ini terjemah kepada projek sebenar di Malaysia? Beberapa senario tipikal:

1. Visi Komputer Untuk QC di Kilang Elektronik

Banyak kilang PCB dan EMS di Malaysia sudah gunakan kamera beresolusi tinggi dan model AI untuk:

  • Kesan misalignment komponen SMD
  • Cari solder joint yang bermasalah
  • Kenal pasti micro-crack atau color shift pada panel

Cabaran biasa:

  • Model CNN/transformer untuk visi menjadi semakin besar
  • Kamera bertambah (multi-angle, 3D, hyperspectral)
  • Semua mahu diproses secara masa nyata tanpa menambah terlalu banyak pelayan

Dengan seni bina seperti Weaver + OmniConnect:

  • Satu nod inferens boleh ada ber-TB memori LPDDR5X, bukan ratusan GB semata-mata
  • Keseluruhan model kompleks boleh berada dalam memori berdekatan XPU
  • Sistem boleh proses lebih banyak “stream” kamera serentak tanpa menjadi bottleneck memori

Kesan praktikal:

  • Lebih sedikit stesen QC fizikal, tapi lebih pintar
  • Penolakan produk (reject) boleh dikurangkan tanpa overkill tenaga kerja manual

2. Pembuatan Automotif: AI di Tepi (Edge) Kilang

Dalam automotif, terutama untuk EV dan modul ADAS, kilang perlu:

  • Simulasi dan pengesahan sensor dalam test rig
  • Analisis data getaran/akustik dari line pemasangan
  • Jalankan model AI untuk mengesan corak kegagalan awal

Di sini, kita nampak keperluan gabungan HPC + memori skala besar di persekitaran yang dekat dengan line pengeluaran, bukan hanya di pusat data jauh.

Dengan CXL dan OmniConnect:

  • Nodal komputasi di tepi kilang boleh dikembangkan memori tanpa tukar keseluruhan pelayan
  • Vendor boleh “late binding” DRAM – konfigurasi berbeza memori untuk pelanggan berbeza tanpa rekabentuk semula ASIC
  • Data log dari ribuan sensor boleh dianalisis hampir masa nyata untuk predictive maintenance

3. RnD Semikonduktor & HPC Untuk Training Mini-Model

Malaysia semakin aktif dalam ujian dan backend semikonduktor. Banyak syarikat RnD kecil-sederhana mahu:

  • Latih model AI khusus (contoh: defect classification, lithography tuning)
  • Jalankan simulasi besar yang memerlukan memori banyak tapi tak semestinya HBM penuh

Senibina seperti Weaver:

  • Membenarkan pembinaan kluster XPU yang mengutamakan kapasiti memori dengan kos terkawal
  • Memberi ruang untuk projek RnD yang tak mampu belanja penuh pada GPU HBM premium tetapi masih perlukan memori TB-level

MikroLED Optik & Masa Depan Rangkaian AI Kilang

Satu lagi sudut menarik ialah pengambilalihan Hyperlume oleh Credo. Hyperlume kembangkan interkonek optik berasaskan microLED untuk komunikasi cip ke cip.

Integrasi ini membolehkan senario seperti:

  • Sebahagian laluan SerDes digunakan untuk komunikasi optik microLED berhampiran port
  • Sebahagian lagi kekal untuk komunikasi elektrik biasa (scale-up / scale-out)

Bagi kilang besar yang mahu rangkaian AI dalaman antara stesen kerja, ini membuka beberapa kemungkinan:

  • Papan modul inferens dengan memori besar dihubungkan optik untuk latensi rendah antara line produksi
  • Peluasan sistem tanpa terikat sepenuhnya pada rangkaian Ethernet tradisional

Saya suka pendekatan ini kerana ia selari dengan realiti pelaburan di kilang: anda mula dengan konfigurasi asas, kemudian skala memori dan rangkaian mengikut keperluan beberapa tahun akan datang — tanpa buang pelaburan awal.


Apa Pengurus IT & Jurutera Kilang Patut Buat Sekarang

Bagi saya, mesej utama dari teknologi seperti Weaver + CXL diperkemas ini ialah: jangan reka AI kilang anda mengikut kekangan memori lama.

Beberapa langkah praktikal:

  1. Semak semula “bottleneck” sistem AI sedia ada

    • Pantau sama ada GPU/XPU anda sebenarnya idle menunggu data dari memori
    • Lihat berapa banyak paging atau offloading ke storan berlaku dalam beban sebenar kilang
  2. Masukkan CXL & memori skala besar dalam pelan 2–3 tahun

    • Bincang dengan vendor pelayan dan XPU tentang pelan CXL mereka
    • Tanya spesifik: latensi, kuasa per bit, sokongan LPDDR5X/DDR5, dan pilihan memori fanout
  3. Pisahkan keputusan “kuasa kiraan” dan “kapasiti memori”

    • Jangan paksa semua projek AI guna konfigurasi GPU sama semata-mata
    • Ada beban kerja (QC imej, analitik sensor) yang lebih sensitif kepada memori daripada FLOPS
  4. Rancang senibina kilang pintar secara modular

    • Fikirkan nod AI sebagai gabungan: XPU + OmniConnect interface + pool memori yang boleh berkembang
    • Pastikan PCB dan rangkaian dalaman anda bersedia untuk sambungan jarak dekat berkelajuan tinggi (elektrik atau optik)

Menyahut Gelombang AI Pembuatan di Malaysia

Gelombang pelaburan AI dalam pembuatan sudah jelas di Malaysia, terutama dalam E&E, automotif dan semikonduktor. Tapi ramai syarikat hanya fokus kepada “berapa GPU?” sedangkan soalan yang lebih kritikal hari ini ialah “berapa memori sebenar dekat dengan model AI anda?”

Teknologi seperti Credo OmniConnect dan Weaver, dengan CXL yang dipermudah, memberi satu asas kukuh untuk:

  • Menaikkan kapasiti memori sehingga beberapa TB per nod dengan kos lebih terkawal
  • Menjaga latensi dan kuasa supaya sesuai dengan operasi kilang 24/7
  • Menyediakan jalan naik taraf apabila model AI dan beban kerja kilang bertambah dalam 3–5 tahun akan datang

Jika kilang anda sedang merancang projek kilang pintar, visi QC, atau pusat data AI dalaman, ini masa yang sesuai untuk berbincang dengan pasukan reka bentuk dan vendor anda:

Adakah senibina kami bersedia untuk dunia di mana memori, bukan GPU, menjadi had sebenar prestasi AI?

Jawapan jujur kepada soalan itu selalunya membezakan antara kilang yang hanya “buat PoC AI” dengan kilang yang benar-benar menuai ROI AI di lantai produksi.