CXL Stripped-Down & OmniConnect: Memori AI untuk Kilang Pintar

AI dalam Pembuatan (Elektronik, Automotif, Semikonduktor)••By 3L3C

AI dalam kilang Malaysia makin laju, tapi memori jadi penghalang sebenar. CXL dan fanout memori ala Credo Weaver buka jalan untuk kilang pintar berskala besar.

CXLAI dalam pembuatankilang pintarmemori AIsemikonduktor Malaysiarobotik industri
Share:

Mengapa ‘memory wall’ jadi masalah besar untuk kilang AI

Dalam banyak kilang elektronik dan semikonduktor di Malaysia hari ini, GPU dan XPU untuk AI sudah laju gila — tapi prestasi sistem masih tersangkut di tempat yang sama: memori tak cukup laju dan tak cukup besar. Bukan lagi isu kiraan TFLOPS; isu sebenar ialah berapa banyak data model boleh duduk dekat dengan enjin pengiraan dan berapa pantas ia boleh diakses.

Ini sangat ketara bila kilang mula gunakan AI untuk visi mesin, kawalan robotik masa nyata, dan analitik kualiti. Model makin besar, resolusi kamera makin tinggi, dan keperluan latensi makin ketat. Kalau memori tak mengejar, seluruh pelaburan AI jadi “overkill” — GPU mahal, tapi terpaksa tunggu data.

Artikel asal di EE Times tentang Credo OmniConnect dan cip Weaver sebenarnya menyentuh satu perkara penting: bagaimana teknologi seperti CXL yang disederhanakan (stripped-down CXL) boleh menjadi asas kepada kilang AI masa depan – termasuk di Bayan Lepas, Kulim, Senai, dan kawasan industri lain di Malaysia.

Dalam artikel ini, saya akan jelaskan:

  • Apa sebenarnya ‘memory wall’ dalam beban kerja AI
  • Bagaimana pendekatan baru berasaskan CXL dan SerDes seperti Credo Weaver cuba pecahkan dinding ini
  • Kenapa perkara ini penting untuk pembuatan elektronik, automotif, dan semikonduktor
  • Apa yang pengurus kilang, arkitek sistem dan pasukan IT/OT boleh buat 3–12 bulan akan datang

‘Memory wall’ AI: bila GPU bukan lagi masalah utama

Bagi beban kerja AI inference moden, memori — bukan compute — semakin jadi faktor penentu prestasi.

Dalam latihan (training), kita biasanya fikir pasal kluster GPU besar dan rangkaian laju. Tapi dalam inference di kilang, corak penggunaan berbeza:

  • Model perlu diload hampir penuh ke dalam memori supaya respon cepat
  • Beban kerja lebih rawak dan tak seteratur latihan batch
  • Banyak model sederhana ke besar berjalan serentak (QA visual, predictive maintenance, perancangan pengeluaran)

LPDDR5 atau GDDR bagi GPU/XPU tradisional ada tiga had jelas:

  1. Bandwidth terhad – sukar skalakan tanpa naik kos tenaga
  2. Kepadatan terhad – saiz memori sekitar cip (on-package) terhad oleh ruang fizikal
  3. Kuasatenaga tinggi bila cuba tambah lebih banyak channel memori

HBM (High Bandwidth Memory) memang laju, tapi:

  • Mahal
  • Rantaian bekalan ketat
  • Tak praktikal untuk semua sistem, terutama edge AI dalam kilang yang perlukan banyak node kos efektif.

Untuk kilang yang mahu jalankan model visi 4K multi-kamera atau simulasi proses berasaskan AI secara serentak, bottleneck memori ini terus menggigit. Anda akan nampak:

  • GPU terbiar 40–60% masa menunggu data
  • Kadar throughput kamera terpaksa dikurangkan
  • Latensi sistem kawalan robotik meningkat, menjejaskan takt masa dan OEE

Inilah konteks kenapa pendekatan seperti CXL dan memori fan-out mula jadi kritikal.


Apa yang Credo buat berbeza: fan-out memori + CXL ringan

Credo Weaver ialah contoh generasi baru cip yang cuba menyelesaikan masalah ini dengan cara yang agak berani.

Secara ringkas, ia:

  • Bertindak sebagai “memory fanout gearbox”
  • Menggunakan 112G VSR SerDes berketumpatan tinggi
  • Menyampaikan akses kepada LPDDR5X dengan cara yang jauh lebih fleksibel berbanding sambungan memori tradisional

Beberapa poin teknikal penting yang relevan untuk pasukan kejuruteraan di kilang:

1. Pindahkan memori keluar dari substrate

Pendekatan lama:

  • Letak LPDDR di sekeliling IC inference di atas satu substrate besar
  • Terhad kira-kira 16 stack memori, lebih kurang 256 GB dan ~1.3 TB/s bandwidth
  • “Beachfront” I/O cip habis digunakan untuk antara muka memori

Pendekatan Credo:

  • Guna SerDes 112G VSR dengan jangkauan ~250 mm
  • Sambungkan ke modul memori LPDDR5X luar pakej
  • Fan-out fizikal: boleh letak memori sejauh hingga 10 inci dari cip

Hasilnya:

  • Kepadatan memori boleh naik sehingga 30x berbanding reka bentuk substrate tradisional
  • Kapasiti sehingga 6.4 TB memori dan 16 TB/s bandwidth menggunakan LPDDR5X berdasarkan angka dalaman Credo

Untuk AI di kilang, ini bermakna:

  • Satu XPU boleh pegang lebih banyak model dengan penuh (bukan dipotong-potong)
  • Boleh kumpulkan lebih banyak data deria dalam buffer memori sebelum inferens
  • Kurang keperluan “model swapping” daripada storan, jadi latensi turun banyak

2. CXL yang disederhanakan dan dioptimumkan untuk latensi rendah

Credo “mengosongkan” (stripped down) CXL ke tulang:

  • Kekalkan struktur FLIT CXL yang efisien
  • Buang perkara yang tak perlu untuk senario ini, seperti speed hopping
  • Map terus AXI ke atas SerDes dengan overhead minima

Mereka sasarkan:

  • Round-trip latency sekitar 40 ns
  • Kuasatenaga kira-kira 1 picojoule per bit

Dalam konteks automasi kilang:

  • 40 ns itu cukup rendah untuk loop kawalan tertutup yang kritikal masa (contoh: koordinasi lengan robot dengan conveyor berkelajuan tinggi)
  • Kadar tenaga/bit yang rendah bermakna ratusan nod AI boleh disebarkan tanpa melanggar had tenaga dan penyejukan di lantai pengeluaran

3. Reka bentuk ‘future-proof’ melalui OmniConnect

OmniConnect ialah keluarga antara muka Credo; idea asasnya:

Letak banyak port OmniConnect pada XPU anda sekarang, dan hanya tentukan campuran memori vs rangkaian bila anda mereka papan dalam 3 tahun akan datang.

Dalam dunia AI pembuatan, saya nampak perkara ni sangat praktikal. Keperluan model sentiasa berubah:

  • Hari ini mungkin fokus pada pengesanan kecacatan 2D
  • Tahun depan mungkin masuk 3D AOI + model generatif untuk simulasi proses
  • Lepas tu tambah model besar untuk perancangan dan logistik dalaman

Dengan antara muka jenis ini, OEM dan integrator sistem di Malaysia boleh:

  • Guna platform XPU yang sama untuk pelbagai generasi mesin
  • Laras konfigurasi: lebih memori untuk node analitik, lebih rangkaian untuk node koordinasi robotik

Kenapa memory scaling ini penting untuk pembuatan elektronik & semikonduktor

AI dalam pembuatan elektronik dan semikonduktor bukan sekadar satu model kecil di tepi line. Ia bakal jadi “otak teragih” untuk keseluruhan kilang.

Beberapa contoh senario di Malaysia di mana isu memori ini akan timbul secara sangat nyata:

1. Pemeriksaan kualiti multi-kamera resolusi tinggi

Syarikat OSAT atau pengeluar PCB yang guna 10–50 kamera 8–12 MP untuk memeriksa satu line:

  • Setiap kamera hantar video pada 30–60 fps
  • Model visi makin besar (segmentation, deteksi mikro-kecacatan, anomaly detection)

Tanpa memori yang cukup besar dekat dengan XPU:

  • Data terpaksa distrim dalam batch kecil
  • Latensi naik, throughput turun
  • Sukar capai 100% pemeriksaan tanpa sampling

Dengan sistem ala OmniConnect + memori fanout:

  • Data dari semua kamera boleh diproses dalam memori yang dikongsi besar
  • Model boleh jalankan multi-view reasoning (bandingkan bahagian sama dari perspektif berbeza dalam satu shot)
  • Lebih mudah integrasi model generatif untuk mencadangkan punca kecacatan berdasarkan corak imej

2. Kawalan robotik untuk automotif & elektronik pengguna

Dalam automotif dan elektronik pengguna, lebih banyak robot kolaboratif (cobot) digunakan untuk:

  • Assembly halus
  • Pengendalian wafer/komponen sensitif
  • Pengujian berautomasi

AI digunakan untuk:

  • Perception (sensor fusion 3D + kamera RGB)
  • Perancangan gerakan (motion planning)
  • Penghindaran perlanggaran masa nyata

Ini semua bergantung pada graf keadaan besar dan model neural kompleks yang perlu berada dalam memori pantas:

  • Bila memori cukup besar dan pantas, cobot boleh buat lebih banyak pengiraan di-edge, kurang bergantung pada cloud
  • Ini turunkan latensi dan naikkan keselamatan — sangat penting di lantai pengeluaran yang sempit

3. Kilang semikonduktor ‘AI-first’

Untuk pemain besar di Malaysia dalam semikonduktor:

  • Setiap mesin litografi, etching, deposition dan metrology akan dijadikan nod AI berkeupayaan tinggi
  • Model untuk prediktif yield, proses tuning adaptif, dan root cause analysis semakin berat

Tanpa penyelesaian memori yang boleh diskalakan dengan baik:

  • Model perlu diperkecil (quantization agresif, pruning keterlaluan)
  • Sulit nak guna model generatif atau multimodal yang lebih pintar

Dengan infrastruktur berasaskan CXL dan memori fanout:

  • Kapasiti memori boleh meningkat sejajar dengan keperluan model, bukan dikunci oleh pakej cip
  • Arkitek sistem boleh rekaletak “memory pool” pada paras rak atau mesin untuk dikongsi pelbagai XPU

Apa kaitan semua ini dengan ekosistem E&E Malaysia

Malaysia sedang menolak kuat agenda AI dalam pembuatan – bukan saja di MNC seperti Intel, Infineon, Micron, Dyson, tetapi juga di kalangan Tier-1/Tier-2 tempatan.

Realitinya:

  • Kebanyakan pelaburan hari ini tertumpu pada GPU/CPU dan perisian AI
  • Reka bentuk memori dan interconnect sering dianggap “detail implementasi” dan dilepas kepada vendor

Saya fikir itu kesilapan.

Keputusan tentang memori dan interconnect hari ini akan menentukan ceiling prestasi kilang AI anda 3–5 tahun dari sekarang.

Beberapa langkah praktikal untuk pemain di Malaysia:

  1. Masukkan CXL dan memory expansion dalam pelan arkitektur 2026–2028.
    Bila bercakap dengan vendor pelayan, GPU, atau XPU, tanya dengan spesifik:

    • Sokongan CXL versi apa?
    • Apakah latensi end-to-end ke memori tambahan?
    • Berapa pJ/bit untuk sambungan memori luar pakej?
  2. Libatkan pasukan OT/IT dan kejuruteraan proses dalam reka bentuk sistem.
    Mereka tahu di mana latensi paling kritikal:

    • Loop kawalan robot
    • Masa respon sistem visi
    • SLA untuk sistem MES/SCADA
  3. Rancang “AI memory tiers” seperti anda merancang storage tiers.
    Contoh mudah:

    • Tier 0: Memori on-package (HBM/LPDDR): model paling kritikal latensi
    • Tier 1: Memori fanout CXL/OmniConnect: model besar dan buffer data
    • Tier 2: Storage NVMe: logging, retraining, analitik offline
  4. Pantau vendor baru dalam ruang interconnect dan photonics.
    Credo baru sahaja membeli Hyperlume (microLED optical interconnect). Trend ini jelas: optik dekat-cip bakal jadi biasa bila bandwidth AI meningkat.

Untuk ekosistem reka bentuk dan integrasi sistem tempatan, ini ruang peluang besar:

  • Reka modul memori dan rangkaian berasaskan CXL untuk kegunaan kilang serantau
  • Tawarkan penyelesaian “AI rack” yang dioptimumkan untuk beban kerja pembuatan, bukan cloud generik

Apa langkah seterusnya untuk kilang yang serius tentang AI

Kalau anda tengah merancang atau mengembangkan inisiatif kilang pintar 2026–2028, saya akan buat tiga perkara sekarang:

  1. Audit ‘memory wall’ dalam beban kerja AI sedia ada.
    Tanya soalan yang mudah tapi tajam:

    • GPU/XPU utilisation purata berapa %?
    • Berapa banyak masa habis pada data loading vs inferens sebenar?
    • Adakah kita sering perlu mengecilkan model kerana tak muat dalam memori?
  2. Masukkan kriteria memori & CXL dalam RFP peralatan baru.
    Untuk mesin pengeluaran baru atau server AI di kilang, spesifikkan:

    • Keperluan sokongan CXL
    • Pilihan untuk memory expansion di peringkat rak atau mesin
    • Sasaran latensi dan penggunaan tenaga per bit
  3. Bina “roadmap AI-in-Memory” kilang.
    Gandingkan roadmap penggunaan AI (visi, robotik, simulasi, perancangan) dengan:

    • Bila dan di mana memori tambahan diperlukan
    • Bagaimana node akan dihubungkan (Ethernet, InfiniBand, CXL, optik dekat-cip)

Ada banyak hype sekeliling AI di pembuatan, tapi sistem yang benar-benar berkesan biasanya menang kerana kejuruteraan yang teliti di bahagian memori dan interconnect, bukan sekadar kerana modelnya besar.

CXL yang disederhanakan seperti dalam OmniConnect dan fanout memori ala Weaver menunjukkan satu perkara jelas:

Masa depan kilang AI bukan hanya tentang lebih banyak GPU — ia tentang cara kita susun memori dan sambungan di sekelilingnya.

Bagi kilang elektronik, automotif dan semikonduktor di Malaysia, ini masa yang sesuai untuk melangkah dari POC AI kecil-kecilan kepada infrastruktur AI yang benar-benar berskala, bermula dari memori.