AI kilang pintar kini dihadkan oleh memori, bukan GPU. Stripped down CXL dan Credo OmniConnect Weaver membuka jalan kepada memori AI berskala besar untuk E&E.
CXL & OmniConnect: Memori AI Untuk Kilang Pintar
Pada tahun 2025, hampir semua syarikat E&E besar yang melabur dalam AI tersangkut pada satu masalah sama: memori tak cukup laju, tak cukup besar, dan terlalu mahal. Bukan lagi isu GPU tak cukup kuat. Masalah sebenar duduk pada dinding memori (memory wall).
Dalam konteks Malaysia β dari kilang semikonduktor di Penang, automotif di Tanjung Malim sampai elektronik pengguna di Johor β AI untuk fabrik pintar, kawalan kualiti berasaskan visi, dan perancangan pengeluaran pintar semuanya bergantung kepada inference AI berprestasi tinggi. Tanpa seni bina memori yang betul, projek AI hanya cantik dalam slaid, tapi semput bila masuk line produksi.
Artikel ini kupas bagaimana pendekatan baharu berasaskan CXL yang dilucutkan (stripped down CXL) dan cip Credo OmniConnect Weaver membuka jalan untuk memori AI berskala besar β dan apa maksudnya untuk kilang elektronik, automotif dan semikonduktor di Malaysia.
Masalah Sebenar AI di Kilang: Bukan GPU, Tapi Dinding Memori
Realiti hari ini: model AI inference semakin besar, tapi memori di sebelah pemproses tak sempat kejar.
Gary Hilson dalam laporan asal EE Times memetik Don Barnetson dari Credo yang menyatakan bahawa untuk inference, had prestasi utama bukan lagi kuasa kiraan, tapi kuantiti dan throughput memori.
Dalam kilang pintar, ini muncul dalam bentuk:
- Model visi komputer 4K untuk pemeriksaan wafer atau PCB yang terlalu besar untuk muat dalam memori on-package
- Model perancangan pengeluaran (scheduling / optimization) yang memerlukan set data berbilion rekod masa nyata
- Aplikasi generatif (contoh: penjanaan arahan kerja, log analitik, laporan automatik) yang mahu context window panjang, tapi memori tak mengizinkan
Kitaran yang berlaku di banyak kilang:
- Pasukan data sains bina model hebat di cloud.
- Bila nak bawa ke edge (di mesin, di stesen ujian, di line pemasangan), model dikecilkan kerana batasan memori.
- Hasilnya, ketepatan berkurang, latency tinggi, dan ROI projek AI jadi meragukan.
**Ini sebab memori untuk AI dalam persekitaran industri perlu: **
- Lebih padat (tinggi densiti)
- Lebih pantas (bandwidth besar)
- Lebih cekap tenaga
- Lebih fleksibel dari segi seni bina dan form factor
Teknologi memori sedia ada ada had tersendiri:
- LPDDR5 / LPDDR5X β jimat kuasa, biasa dalam SoC, tapi:
- bandwidth terhad
- density terhad dalam pakej kecil
- GDDR β laju tapi lapar kuasa, lebih sesuai GPU discrete besar
- HBM β prestasi puncak, tetapi:
- kos sangat tinggi
- bekalan terhad (HBM contohnya jadi isu besar untuk vendor AI besar)
- integrasi rumit, tak semua XPU / ASIC boleh guna
Kilang yang nak skala AI pada ratusan atau ribuan nod inferens tak mampu jadikan HBM sebagai standard. Mereka perlukan jalan tengah: gunakan memori lebih mampu milik seperti LPDDR5X, tapi skala cara sambungan dan seni bina memori.
Apa Sebenarnya Credo OmniConnect Weaver Buat?
Weaver ialah apa yang Credo panggil "memory fanout gearbox" β bahasa mudah, satu cip penghubung yang:
- Sambungkan XPU / accelerator melalui SerDes 112G sangat padat
- Boleh bercakap dengan banyak cip LPDDR5X di sebelah lain
- Menggunakan versi CXL yang telah "dilucutkan" kepada asas paling efisien
Beberapa angka penting yang patut buat jurutera sistem di kilang Malaysia buka mata:
- Sehingga 6.4 TB kapasiti memori menggunakan LPDDR5X
- Sehingga 16 TB/s bandwidth
- Densiti I/O: sekitar 2 Tbps per mm "beachfront"
- Kuasa: sekitar 1 picojoule setiap bit untuk SerDes β sangat rendah untuk jarak 250 mm
- Latency sekitar 40 ns pergi-balik, cukup rendah untuk kebanyakan beban kerja real-time inference
Sebelum ni, pendekatan tipikal ialah:
Letak timbunan LPDDR di atas satu substrat gergasi yang mengelilingi cip inference.
Hadnya:
- maksimum sekitar 16 tumpukan memori
- sekitar 256 GB kapasiti dan 1.3 TB/s bandwidth
- kawasan tepi cip ("beachfront") habis digunakan untuk antara muka memori lebar-paralel
Weaver buat sesuatu yang berbeza:
-
Alihkan memori keluar dari substrat
- Guna SerDes berkelajuan tinggi, bukannya antara muka paralel lebar biasa
- Bebaskan kawasan tepi cip untuk fungsi lain
-
Gunakan CXL yang diringkaskan (stripped down)
- Kekalkan struktur FLIT (Frame) CXL yang effisien
- Buang ciri berat seperti speed hopping yang tak perlu dalam senario ini
- Peta
AXI over SerDessecara sangat efisien
-
Fan-out fizikal pada skala pelayan / sistem
- Memori tak lagi mesti berada dalam pakej; boleh duduk sehingga 10 inci dari cip
- Ini meningkatkan densiti memori secara teori sehingga 30x berbanding pendekatan on-substrate tadi
Dari perspektif arkitek sistem untuk kilang pintar, mesejnya ringkas:
Anda boleh reka XPU / SoC yang fokus pada compute, dan serahkan kerja skala memori kepada lapisan OmniConnect/Weaver.
Kenapa Stripped Down CXL Penting Untuk Kilang Pintar
CXL (Compute Express Link) pada asalnya direka untuk dunia pusat data: sambungan pantas, konsisten, boleh kongsi antara CPU, GPU, accelerator dan memori. Tetapi versi penuh CXL datang dengan kos:
- logik kompleks
- kuasa lebih tinggi
- ciri-ciri yang tak semua relevan untuk senario memori dekat (short reach)
Pendekatan Credo:
- Ambil apa yang bagus daripada CXL (struktur FLIT, model memori koheren yang jelas)
- Jalankan di atas SerDes 112G VSR yang sangat cekap
- Strip buang segala yang tak perlu untuk sambungan jarak dekat antara XPU dan cip memori fanout
Untuk AI dalam persekitaran pembuatan elektronik dan semikonduktor, kesan praktikalnya:
-
Latency yang cukup rendah untuk kawalan masa nyata
40 ns round-trip lebih kurang dalam lingkungan yang masih sesuai untuk:- sistem penglihatan mesin yang buat keputusan lelaran pantas (lulus/gagal, pengukuran dimensi, pengesanan kecacatan halus)
- penukaran resepi proses berasaskan inferens masa nyata
-
Bandwidth cukup untuk beberapa model besar serentak
16 TB/s bukannya nombor gimmick β ini yang benarkan:- beberapa pipeline inferens kongsi "pool" memori sama
- gabungan sensor beresolusi tinggi (kamera, X-ray, AOI, sistem pengukuran) tanpa menjadi sempit pada memori
- Fleksibiliti seni bina sistem
Dengan OmniConnect di bahagian tepi cip, vendor XPU boleh:- memutuskan campuran antara memori tambahan dan rangkaian skala keluar (scale-out) bila mereka reka papan dalam 2β3 tahun akan datang
- adapt kepada keperluan model AI yang jujurnya kita sendiri tak boleh ramal hari ini
Dalam erti kata lain, stripped down CXL di sini lebih kepada infrastruktur AI untuk kilang masa depan berbanding satu lagi fitur hardware yang cantik di datasheet.
Aplikasi Terus Dalam Pembuatan Elektronik & Semikonduktor
Di Malaysia, nama seperti Intel, Infineon, TF-AMD, Western Digital, Micron, Dyson dan banyak lagi sedang mempercepat penggunaan AI dalam operasi. Bagaimana seni bina memori seperti Weaver + OmniConnect ni boleh masuk ke dunia sebenar mereka?
1. Pemeriksaan Automatik (AOI) & Metrologi Wafer
Pemeriksaan wafer dan die hari ini guna:
- gambar beresolusi sangat tinggi
- kadang-kadang gabungan data optik + e-beam + X-ray
- model AI multi-modal yang besar
Tanpa memori besar dan laju:
- model perlu dikecilkan
- batch size mesti dikompromi
- sebahagian data pinggir (edge detail) dikorbankan untuk jimat memori
Dengan pool memori LPDDR5X berterabait di belakang XPU:
- keseluruhan model dan "tiling" imej boleh muat dalam memori berhampiran
- throughput line pemeriksaan meningkat (lebih banyak wafer per jam)
- lebih mudah jalankan beberapa model serentak (contoh: model kecacatan permukaan + model klasifikasi proses) tanpa pindah data ulang-alik ke storan jauh
2. Pengoptimuman Jadual & Rantaian Bekalan Pintar
Banyak kilang guna AI untuk:
- menjadualkan mesin
- meramal kegagalan alat
- menguruskan stok komponen bernilai tinggi
Model ini sering:
- beroperasi atas data masa nyata dari ribuan sensor & sistem MES/ERP
- memerlukan state sejarah panjang
Dengan memori skala besar berasaskan CXL:
- model boleh kekalkan konteks data lebih lama tanpa bergantung hanya pada storan disk atau pangkalan data luaran
- inference untuk perancangan semula jadual boleh dibuat lebih kerap (contoh: setiap minit, bukan setiap jam)
3. Robotik & Autonomous Material Handling
Dalam kilang automotif atau elektronik besar, AGV/AMR dan robot lengan perlu:
- proses peta 3D rumit
- gabungkan data kamera, LiDAR, sensor force/torque
- jalankan model laluan dinamik dan pengelakan halangan berasaskan AI
Ini semua memori-intensif. Dengan pendekatan memori fanout:
- satu nod pengiraan di tepi line boleh menjadi "otak kolektif" untuk beberapa robot
- model navigasi dan perancangan laluan boleh dibesarkan tanpa menambah HBM yang mahal pada setiap modul pengiraan
4. Penjanaan Kandungan Teknikal Berasaskan AI
Kita mula nampak penggunaan model generatif untuk:
- menjana laporan OEE automatik
- menjelaskan punca akar masalah (RCA) dalam bahasa yang difahami juruteknik
- mencadangkan pelarasan parameter proses
Model seperti ini β termasuk varian multimodal β perlukan context window panjang dan banyak parameter disimpan dekat dengan compute. Pool memori yang disambungkan melalui CXL stripped-down memberi ruang untuk eksperimen model sebegini di dalam kilang, bukan hanya di cloud.
Apa Yang Perlu Dibuat Oleh Pemain E&E Malaysia Sekarang
Weaver dan keluarga OmniConnect mungkin terdengar "jauh" dari realiti projek AI hari ini, tapi saya berpendapat syarikat yang serius dengan AI dalam pembuatan perlu mula bertindak dari sekarang.
Beberapa langkah praktikal:
1. Masukkan "Seni Bina Memori AI" Dalam Roadmap
Jangan lagi tengok GPU/TPU/XPU sahaja. Semasa:
- merancang data center on-site untuk kilang
- memilih platform edge AI untuk line baru
β¦pastikan soalan ini ditanya secara spesifik:
- Berapa banyak memori berkesan yang boleh diskalakan per nod AI?
- Adakah platform menyokong CXL sekarang atau dalam generasi akan datang?
- Bolehkah memori diperluas di peringkat papan / rak, bukan hanya dalam pakej?
2. Kerjasama Rapat Dengan Vendor XPU & OEM
Syarikat seperti Intel, AMD, NVIDIA, dan vendor XPU khusus kilang akan jadi pihak yang paling cepat mengguna pakai teknologi seperti OmniConnect.
Sebagai pemilik kilang, anda patut:
- nyatakan dengan jelas keperluan beban kerja AI yang memori-intensif (contoh: pemeriksaan wafer 8K, model jadual berbilion pembolehubah)
- minta pelan sokongan CXL / memori fanout dalam siklus produk 2β3 tahun
3. Reka Infrastruktur "Future-Proof" Di Peringkat Rak / Sistem
Satu perkara menarik yang disebut Barnetson ialah pendekatan "future proof":
Letak sahaja banyak antara muka OmniConnect di luar cip, dan dalam masa 3 tahun bila papan sebenar dibina, baru tentukan berapa banyak memori dan berapa banyak sambungan rangkaian diperlukan.
Untuk perancangan kilang:
- pastikan kabinet, bekalan kuasa dan rangkaian boleh menampung densiti memori dan throughput lebih tinggi daripada keperluan hari ini
- pilih seni bina rangkaian dalaman (contoh: fabric CXL + Ethernet) yang boleh dikembangkan bila AI guna lebih banyak memori
AI Kilang Pintar Perlukan Dinding Memori Baharu, Bukan GPU Baharu Semata-mata
Trend besar jelas: AI inference akan jadi lebih memori-intensif daripada compute-intensif untuk banyak aplikasi industri.
Stripped down CXL dan cip seperti Credo OmniConnect Weaver menunjukkan hala tuju:
- memori tidak lagi terperangkap dalam pakej kecil di sebelah cip
- XPU tidak lagi perlu dikunci kepada satu jenis memori mahal seperti HBM
- kilang boleh bina kluster AI dengan memori berterabait yang dekat, pantas dan cekap tenaga
Untuk ekosistem pembuatan elektronik, automotif dan semikonduktor di Malaysia, ini bukan sekadar inovasi hardware β ini asas infrastruktur AI kilang 2030.
Kalau anda sedang merancang pelaburan AI untuk 2β5 tahun akan datang, tanya diri sendiri:
adakah seni bina memori anda cukup lincah untuk menampung model yang belum lagi dicipta?
Kalau jawapannya ragu-ragu, sudah sampai masa memasukkan CXL dan seni bina memori fanout dalam perbincangan teknikal anda seterusnya.