🇲🇾 CXL & OmniConnect: Memori AI Untuk Kilang Pintar - Malaysia

AI dalam Pembuatan (Elektronik, Automotif, Semikonduktor)•14 Disember 2025•By 3L3C

AI kilang pintar kini dihadkan oleh memori, bukan GPU. Stripped down CXL dan Credo OmniConnect Weaver membuka jalan kepada memori AI berskala besar untuk E&E.

CXLmemori AIkilang pintarsemikonduktorelectronics manufacturingAI inferenceOmniConnect

CXL & OmniConnect: Memori AI Untuk Kilang Pintar

Pada tahun 2025, hampir semua syarikat E&E besar yang melabur dalam AI tersangkut pada satu masalah sama: memori tak cukup laju, tak cukup besar, dan terlalu mahal. Bukan lagi isu GPU tak cukup kuat. Masalah sebenar duduk pada dinding memori (memory wall).

Dalam konteks Malaysia – dari kilang semikonduktor di Penang, automotif di Tanjung Malim sampai elektronik pengguna di Johor – AI untuk fabrik pintar, kawalan kualiti berasaskan visi, dan perancangan pengeluaran pintar semuanya bergantung kepada inference AI berprestasi tinggi. Tanpa seni bina memori yang betul, projek AI hanya cantik dalam slaid, tapi semput bila masuk line produksi.

Artikel ini kupas bagaimana pendekatan baharu berasaskan CXL yang dilucutkan (stripped down CXL) dan cip Credo OmniConnect Weaver membuka jalan untuk memori AI berskala besar – dan apa maksudnya untuk kilang elektronik, automotif dan semikonduktor di Malaysia.

Masalah Sebenar AI di Kilang: Bukan GPU, Tapi Dinding Memori

Realiti hari ini: model AI inference semakin besar, tapi memori di sebelah pemproses tak sempat kejar.

Gary Hilson dalam laporan asal EE Times memetik Don Barnetson dari Credo yang menyatakan bahawa untuk inference, had prestasi utama bukan lagi kuasa kiraan, tapi kuantiti dan throughput memori.

Dalam kilang pintar, ini muncul dalam bentuk:

Model visi komputer 4K untuk pemeriksaan wafer atau PCB yang terlalu besar untuk muat dalam memori on-package
Model perancangan pengeluaran (scheduling / optimization) yang memerlukan set data berbilion rekod masa nyata
Aplikasi generatif (contoh: penjanaan arahan kerja, log analitik, laporan automatik) yang mahu context window panjang, tapi memori tak mengizinkan

Kitaran yang berlaku di banyak kilang:

Pasukan data sains bina model hebat di cloud.
Bila nak bawa ke edge (di mesin, di stesen ujian, di line pemasangan), model dikecilkan kerana batasan memori.
Hasilnya, ketepatan berkurang, latency tinggi, dan ROI projek AI jadi meragukan.

**Ini sebab memori untuk AI dalam persekitaran industri perlu: **

Lebih padat (tinggi densiti)
Lebih pantas (bandwidth besar)
Lebih cekap tenaga
Lebih fleksibel dari segi seni bina dan form factor

Teknologi memori sedia ada ada had tersendiri:

LPDDR5 / LPDDR5X – jimat kuasa, biasa dalam SoC, tapi:
- bandwidth terhad
- density terhad dalam pakej kecil
GDDR – laju tapi lapar kuasa, lebih sesuai GPU discrete besar
HBM – prestasi puncak, tetapi:
- kos sangat tinggi
- bekalan terhad (HBM contohnya jadi isu besar untuk vendor AI besar)
- integrasi rumit, tak semua XPU / ASIC boleh guna

Kilang yang nak skala AI pada ratusan atau ribuan nod inferens tak mampu jadikan HBM sebagai standard. Mereka perlukan jalan tengah: gunakan memori lebih mampu milik seperti LPDDR5X, tapi skala cara sambungan dan seni bina memori.

Apa Sebenarnya Credo OmniConnect Weaver Buat?

Weaver ialah apa yang Credo panggil "memory fanout gearbox" – bahasa mudah, satu cip penghubung yang:

Sambungkan XPU / accelerator melalui SerDes 112G sangat padat
Boleh bercakap dengan banyak cip LPDDR5X di sebelah lain
Menggunakan versi CXL yang telah "dilucutkan" kepada asas paling efisien

Beberapa angka penting yang patut buat jurutera sistem di kilang Malaysia buka mata:

Sehingga 6.4 TB kapasiti memori menggunakan LPDDR5X
Sehingga 16 TB/s bandwidth
Densiti I/O: sekitar 2 Tbps per mm "beachfront"
Kuasa: sekitar 1 picojoule setiap bit untuk SerDes – sangat rendah untuk jarak 250 mm
Latency sekitar 40 ns pergi-balik, cukup rendah untuk kebanyakan beban kerja real-time inference

Sebelum ni, pendekatan tipikal ialah:

Letak timbunan LPDDR di atas satu substrat gergasi yang mengelilingi cip inference.

Hadnya:

maksimum sekitar 16 tumpukan memori
sekitar 256 GB kapasiti dan 1.3 TB/s bandwidth
kawasan tepi cip ("beachfront") habis digunakan untuk antara muka memori lebar-paralel

Weaver buat sesuatu yang berbeza:

Alihkan memori keluar dari substrat
- Guna SerDes berkelajuan tinggi, bukannya antara muka paralel lebar biasa
- Bebaskan kawasan tepi cip untuk fungsi lain
Gunakan CXL yang diringkaskan (stripped down)
- Kekalkan struktur FLIT (Frame) CXL yang effisien
- Buang ciri berat seperti speed hopping yang tak perlu dalam senario ini
- Peta AXI over SerDes secara sangat efisien
Fan-out fizikal pada skala pelayan / sistem
- Memori tak lagi mesti berada dalam pakej; boleh duduk sehingga 10 inci dari cip
- Ini meningkatkan densiti memori secara teori sehingga 30x berbanding pendekatan on-substrate tadi

Dari perspektif arkitek sistem untuk kilang pintar, mesejnya ringkas:

Anda boleh reka XPU / SoC yang fokus pada compute, dan serahkan kerja skala memori kepada lapisan OmniConnect/Weaver.

Kenapa Stripped Down CXL Penting Untuk Kilang Pintar

CXL (Compute Express Link) pada asalnya direka untuk dunia pusat data: sambungan pantas, konsisten, boleh kongsi antara CPU, GPU, accelerator dan memori. Tetapi versi penuh CXL datang dengan kos:

logik kompleks
kuasa lebih tinggi
ciri-ciri yang tak semua relevan untuk senario memori dekat (short reach)

Pendekatan Credo:

Ambil apa yang bagus daripada CXL (struktur FLIT, model memori koheren yang jelas)
Jalankan di atas SerDes 112G VSR yang sangat cekap
Strip buang segala yang tak perlu untuk sambungan jarak dekat antara XPU dan cip memori fanout

Untuk AI dalam persekitaran pembuatan elektronik dan semikonduktor, kesan praktikalnya:

Latency yang cukup rendah untuk kawalan masa nyata
40 ns round-trip lebih kurang dalam lingkungan yang masih sesuai untuk:
- sistem penglihatan mesin yang buat keputusan lelaran pantas (lulus/gagal, pengukuran dimensi, pengesanan kecacatan halus)
- penukaran resepi proses berasaskan inferens masa nyata
Bandwidth cukup untuk beberapa model besar serentak
16 TB/s bukannya nombor gimmick – ini yang benarkan:
- beberapa pipeline inferens kongsi "pool" memori sama
- gabungan sensor beresolusi tinggi (kamera, X-ray, AOI, sistem pengukuran) tanpa menjadi sempit pada memori

Fleksibiliti seni bina sistem
Dengan OmniConnect di bahagian tepi cip, vendor XPU boleh:
- memutuskan campuran antara memori tambahan dan rangkaian skala keluar (scale-out) bila mereka reka papan dalam 2–3 tahun akan datang
- adapt kepada keperluan model AI yang jujurnya kita sendiri tak boleh ramal hari ini

Dalam erti kata lain, stripped down CXL di sini lebih kepada infrastruktur AI untuk kilang masa depan berbanding satu lagi fitur hardware yang cantik di datasheet.

Aplikasi Terus Dalam Pembuatan Elektronik & Semikonduktor

Di Malaysia, nama seperti Intel, Infineon, TF-AMD, Western Digital, Micron, Dyson dan banyak lagi sedang mempercepat penggunaan AI dalam operasi. Bagaimana seni bina memori seperti Weaver + OmniConnect ni boleh masuk ke dunia sebenar mereka?

1. Pemeriksaan Automatik (AOI) & Metrologi Wafer

Pemeriksaan wafer dan die hari ini guna:

gambar beresolusi sangat tinggi
kadang-kadang gabungan data optik + e-beam + X-ray
model AI multi-modal yang besar

Tanpa memori besar dan laju:

model perlu dikecilkan
batch size mesti dikompromi
sebahagian data pinggir (edge detail) dikorbankan untuk jimat memori

Dengan pool memori LPDDR5X berterabait di belakang XPU:

keseluruhan model dan "tiling" imej boleh muat dalam memori berhampiran
throughput line pemeriksaan meningkat (lebih banyak wafer per jam)
lebih mudah jalankan beberapa model serentak (contoh: model kecacatan permukaan + model klasifikasi proses) tanpa pindah data ulang-alik ke storan jauh

2. Pengoptimuman Jadual & Rantaian Bekalan Pintar

Banyak kilang guna AI untuk:

menjadualkan mesin
meramal kegagalan alat
menguruskan stok komponen bernilai tinggi

Model ini sering:

beroperasi atas data masa nyata dari ribuan sensor & sistem MES/ERP
memerlukan state sejarah panjang

Dengan memori skala besar berasaskan CXL:

model boleh kekalkan konteks data lebih lama tanpa bergantung hanya pada storan disk atau pangkalan data luaran
inference untuk perancangan semula jadual boleh dibuat lebih kerap (contoh: setiap minit, bukan setiap jam)

3. Robotik & Autonomous Material Handling

Dalam kilang automotif atau elektronik besar, AGV/AMR dan robot lengan perlu:

proses peta 3D rumit
gabungkan data kamera, LiDAR, sensor force/torque
jalankan model laluan dinamik dan pengelakan halangan berasaskan AI

Ini semua memori-intensif. Dengan pendekatan memori fanout:

satu nod pengiraan di tepi line boleh menjadi "otak kolektif" untuk beberapa robot
model navigasi dan perancangan laluan boleh dibesarkan tanpa menambah HBM yang mahal pada setiap modul pengiraan

4. Penjanaan Kandungan Teknikal Berasaskan AI

Kita mula nampak penggunaan model generatif untuk:

menjana laporan OEE automatik
menjelaskan punca akar masalah (RCA) dalam bahasa yang difahami juruteknik
mencadangkan pelarasan parameter proses

Model seperti ini – termasuk varian multimodal – perlukan context window panjang dan banyak parameter disimpan dekat dengan compute. Pool memori yang disambungkan melalui CXL stripped-down memberi ruang untuk eksperimen model sebegini di dalam kilang, bukan hanya di cloud.

Apa Yang Perlu Dibuat Oleh Pemain E&E Malaysia Sekarang

Weaver dan keluarga OmniConnect mungkin terdengar "jauh" dari realiti projek AI hari ini, tapi saya berpendapat syarikat yang serius dengan AI dalam pembuatan perlu mula bertindak dari sekarang.

Beberapa langkah praktikal:

1. Masukkan "Seni Bina Memori AI" Dalam Roadmap

Jangan lagi tengok GPU/TPU/XPU sahaja. Semasa:

merancang data center on-site untuk kilang
memilih platform edge AI untuk line baru

…pastikan soalan ini ditanya secara spesifik:

Berapa banyak memori berkesan yang boleh diskalakan per nod AI?
Adakah platform menyokong CXL sekarang atau dalam generasi akan datang?
Bolehkah memori diperluas di peringkat papan / rak, bukan hanya dalam pakej?

2. Kerjasama Rapat Dengan Vendor XPU & OEM

Syarikat seperti Intel, AMD, NVIDIA, dan vendor XPU khusus kilang akan jadi pihak yang paling cepat mengguna pakai teknologi seperti OmniConnect.

Sebagai pemilik kilang, anda patut:

nyatakan dengan jelas keperluan beban kerja AI yang memori-intensif (contoh: pemeriksaan wafer 8K, model jadual berbilion pembolehubah)
minta pelan sokongan CXL / memori fanout dalam siklus produk 2–3 tahun

3. Reka Infrastruktur "Future-Proof" Di Peringkat Rak / Sistem

Satu perkara menarik yang disebut Barnetson ialah pendekatan "future proof":

Letak sahaja banyak antara muka OmniConnect di luar cip, dan dalam masa 3 tahun bila papan sebenar dibina, baru tentukan berapa banyak memori dan berapa banyak sambungan rangkaian diperlukan.

Untuk perancangan kilang:

pastikan kabinet, bekalan kuasa dan rangkaian boleh menampung densiti memori dan throughput lebih tinggi daripada keperluan hari ini
pilih seni bina rangkaian dalaman (contoh: fabric CXL + Ethernet) yang boleh dikembangkan bila AI guna lebih banyak memori

AI Kilang Pintar Perlukan Dinding Memori Baharu, Bukan GPU Baharu Semata-mata

Trend besar jelas: AI inference akan jadi lebih memori-intensif daripada compute-intensif untuk banyak aplikasi industri.

Stripped down CXL dan cip seperti Credo OmniConnect Weaver menunjukkan hala tuju:

memori tidak lagi terperangkap dalam pakej kecil di sebelah cip
XPU tidak lagi perlu dikunci kepada satu jenis memori mahal seperti HBM
kilang boleh bina kluster AI dengan memori berterabait yang dekat, pantas dan cekap tenaga

Untuk ekosistem pembuatan elektronik, automotif dan semikonduktor di Malaysia, ini bukan sekadar inovasi hardware – ini asas infrastruktur AI kilang 2030.

Kalau anda sedang merancang pelaburan AI untuk 2–5 tahun akan datang, tanya diri sendiri:
adakah seni bina memori anda cukup lincah untuk menampung model yang belum lagi dicipta?
Kalau jawapannya ragu-ragu, sudah sampai masa memasukkan CXL dan seni bina memori fanout dalam perbincangan teknikal anda seterusnya.