🇲🇾 CPU Bijak Untuk AI Kilang: RAG, Edge & Unified Memory - Malaysia

AI dalam Pembuatan (Elektronik, Automotif, Semikonduktor)•14 Disember 2025•By 3L3C

CPU bijak + RAG on‑device boleh jadikan kilang elektronik dan automotif lebih pantas, tepat dan selamat tanpa hantar data ke cloud.

AI kilang pintarRAG on-deviceCPU untuk AIedge AI industriUnified Memorypembuatan elektronikautomotif dan semikonduktor

CPU Bukan Lagi Sidekick: Kunci AI Pintar Di Kilang

Dalam banyak kilang elektronik dan automotif di Malaysia, 70–80% maklumat kritikal masih “terperangkap” dalam PDF lama: SOP kualiti, spec mesin SMT, manual robot, laporan yield, FMEA, dan sebagainya. Jurutera buang masa 30–60 minit hanya untuk cari satu nilai tolerans atau setting parameter.

Di sinilah ramai pengeluar tersilap fokus. Mereka fikir untuk bawa AI ke kilang, semuanya mesti didorong GPU di data center. Realitinya, untuk banyak aplikasi smart factory — terutamanya carian teknikal dalaman dan pembantu jurutera di tepi line — CPU yang dioptimumkan untuk AI dan RAG (Retrieval-Augmented Generation) jauh lebih kritikal.

Artikel ini mengupas bagaimana pendekatan Odin Shen tentang RAG di atas platform desktop DGX Spark boleh diterjemah terus ke konteks kilang elektronik, automotif dan semikonduktor, dengan fokus pada:

Peranan sebenar CPU dalam pipeline AI di kilang
Bagaimana RAG membantu kurangkan “halusinasi” AI untuk data teknikal
Kelebihan Unified Memory bila anda gabungkan CPU + GPU di edge
Langkah praktikal untuk pasukan IT/OT mula merancang projek sebegini

Kenapa Kilang Perlu Fikir Semula Peranan CPU Dalam AI

Untuk aplikasi AI di kilang, bukan semua beban kerja patut dipaksa ke GPU.

Dalam pipeline AI tipikal di kilang (contoh: pembantu teknikal untuk jurutera proses), langkahnya lebih kurang begini:

Pengguna tanya soalan dalam bahasa biasa
Sistem cari dokumen dalaman yang berkaitan
Model bahasa jana jawapan berdasarkan dokumen yang ditemui

Di sini, hanya langkah ke‑3 betul‑betul berat kepada GPU. Langkah 1 dan 2 — parsing soalan, embedding teks, carian vektor — lebih sesuai dioptimumkan pada CPU.

Dalam RAG,

Soalan pengguna diubah kepada vektor (embedding)
Vektor itu digunakan untuk mencari petikan paling relevan dalam pangkalan data dokumen

Embedding ini biasanya input kecil, sangat sensitif kepada kependaman (latency). Hantar batch kecil ke GPU kerap kali lebih perlahan kerana:

Overhead jadualkan kernel GPU
Transfer melalui PCIe
Utilisasi GPU yang tak efisien untuk beban kerja kecil

Saya suka cara satu projek RAG di DGX Spark menanganinya: biar CPU Arm Cortex-X/Cortex-A urus embedding, dan GPU fokus kepada generasi teks. Ini sejenis pembahagian kerja yang jauh lebih masuk akal untuk kilang — terutamanya bila anda mula bawa AI ke edge (di line SMT, di stesen pengujian, di bilik metrology).

Relevan untuk kilang Malaysia

Di Bayan Lepas, Kulim, Senai dan Pasir Gudang, majoriti line pengeluaran elektronik dan automotif menggunakan PC industri sebagai HMI atau terminal jurutera. Anda takkan letak rack GPU A100 di sebelah setiap mesin ICT atau handler. Tapi CPU moden dengan sokongan AI‑friendly (contoh Arm berprestasi tinggi atau x86 baharu) boleh jalankan embedding dan carian vektor secara on-device.

Ini membuka jalan kepada:

Smart engineering copilots dalam bilik FA atau PE
Carian pantas dalam spec mesin, recipe, ECN, dan control plan
Pembantu digital di line yang boleh jawab soalan operator dalam BM atau Inggeris berdasarkan SOP dalaman

RAG: Cara Praktikal Elak AI “Mereka Cerita” Dalam Data Teknikal

RAG ialah cara paling waras untuk guna generative AI dalam persekitaran kilang yang sensitif kepada ketepatan dan kerahsiaan.

Tanpa RAG, model bahasa cenderung “mengagak” bila maklumat tak wujud dalam training data. Dalam domain teknikal — contohnya spec pad BGA, limit voltan, atau default parameter mesin — kesilapan begini bukannya kecil. Ia boleh bawa kepada:

Recipe salah → scrap meningkat
Setting pengujian tak tepat → yield palsu
Keputusan kejuruteraan tersasar → masa hilang di FA

Dalam eksperimen yang dikongsikan Odin Shen, satu soalan mudah tentang pin GPIO Raspberry Pi diberi kepada model LLM tanpa RAG. Jawapan berubah‑ubah antara cubaan, yakin tetapi salah. Keadaan ini sangat menyerupai apa yang berlaku bila anda tanya model cloud generik tentang spec proprietary produk anda.

Apa yang jadi bila RAG digunakan

Apabila soalan sama melalui pipeline RAG:

Sistem embed soalan pada CPU
FAISS mencari petikan yang relevan daripada dokumen rasmi (datasheet)
LLM menjawab berdasarkan petikan ini, siap dengan rujukan jadual di dokumen

Hasilnya:

Jawapan tepat dan konsisten, selari dengan dokumen rasmi
Jejak audit jelas — jurutera boleh nampak petikan asal SOP/datasheet

Untuk kilang, ini sangat penting dari sudut:

Compliance (IATF 16949, ISO 9001, ISO 13485)
Knowledge management bila jurutera senior bersara atau berhijrah
Training operator baharu tanpa dedah dokumen ke cloud luar

Contoh terus ke konteks kilang

Bayangkan senario biasa di kilang semikonduktor atau EMS:

“Apakah limit IPC untuk voiding di solder joint QFN untuk produk X?”

Tanpa RAG, AI mungkin jawab berdasarkan standard umum yang tak sama dengan customer spec anda. Dengan RAG:

Sistem tarik terus klausa dari dokumen pelanggan dan internal spec
Jawapan dinyatakan mengikut angka sebenar dan versi dokumen

Di sini, embedding pada CPU mengambil masa ~70–90 ms dalam contoh DGX Spark. Itu sudah cukup pantas untuk interface tahap chat biasa — sesuai dijadikan assistant di terminal jurutera atau malah pada tablet supervisor di line.

Kenapa CPU Lebih Sesuai Untuk Embedding Dalam Sistem RAG Kilang

CPU moden dengan seni bina heterogen (contoh Arm Cortex-X + Cortex-A) sangat sesuai untuk tugasan embedding kecil tetapi kerap.

Beberapa sebab teknikal yang penting untuk pasukan IT/OT:

Beban kerja rendah throughput, tinggi responsif
Embedding soalan pengguna atau potongan teks pendek tak perlukan ribuan core GPU. Ia perlukan tindak balas cepat, thread scheduling cekap, dan prestasi satu‑terma (single-thread) yang tinggi — kekuatan CPU.
Model embedding terkuantisasi (int8) sangat mesra CPU
Model embedding moden yang di‑quantize ke int8 boleh berjalan sangat laju pada CPU, dengan penggunaan kuasa rendah. Untuk PC industri di kilang, ini mengurangkan keperluan penyejukan dan bekalan kuasa yang besar.
Kebolehsuaian kod & integrasi dengan sistem sedia ada
Banyak sistem MES, LIMS, dan SCADA menggunakan aplikasi berasaskan CPU. Meletakkan embedding/logik RAG pada CPU memudahkan integrasi melalui API, tanpa gangguan besar kepada infrastruktur.

Implikasi praktikal untuk pelaburan hardware

Bila anda merancang bajet AI kilang untuk 2026:

Jangan hanya kira berapa banyak GPU yang diperlukan
Nilai juga kelas CPU pada workstation jurutera, server on‑prem, dan PC tepi line
Tanya pembekal: adakah CPU menyokong arahan vektor moden dan konfigurasi memori yang sesuai untuk AI di edge?

Pendekatan yang saya cadangkan untuk kebanyakan kilang di Malaysia:

Tier 1 (Edge dekat line): PC industri/box PC dengan CPU berprestasi tinggi + memori cukup untuk model kecil (4–8B parameter) dan FAISS index
Tier 2 (Server on‑prem): NPU/GPU sederhana untuk inference model lebih besar, tapi tetap gunakan CPU untuk embedding dan carian
Tier 3 (Cloud korporat): Untuk latihan model dalaman atau analitik besar, tetapi bukan untuk dokumen sensitif line‑level

Unified Memory: “Lebuh Raya” Senyap Antara CPU & GPU

Unified Memory menjadikan kerjasama CPU–GPU dalam pipeline AI jauh lebih lancar dan boleh dijangka.

Dalam arkitektur tradisional:

CPU hasilkan embedding → salin melalui PCIe ke memori GPU
GPU proses → kadang perlu salin balik ke CPU

Setiap langkah pemindahan ini menambah kependaman dan kerumitan kod.

Dalam arkitektur seperti Grace–Blackwell pada DGX Spark, CPU dan GPU berkongsi ruang memori DRAM yang sama. Kesan praktikalnya kepada projek AI kilang:

Embedding yang dijana CPU terus boleh diakses GPU tanpa salinan eksplisit
Penggunaan memori lebih stabil — dalam contoh, naik hanya ~10 GiB dari idle ke beban penuh RAG
Model kekal di DRAM walaupun selepas beberapa kueri, mengelakkan masa reload yang panjang

Untuk sistem di kilang, manfaatnya jelas:

Respons lebih konsisten untuk pembantu teknikal yang ramai pengguna
Kurang risiko “lag” bila jurutera gunakan sistem pada waktu puncak
Perancangan kapasiti memori lebih mudah (boleh anggar berapa GiB per model + index)

Apa maksudnya bila anda beli hardware baharu

Semasa menilai workstation AI atau server untuk kilang elektronik/automotif:

Tanya sama ada platform menyokong bentuk Unified Memory atau arkitektur memori bersatu yang setara
Faham pola penggunaan memori untuk setiap peringkat:
- Idle OS
- Model loading
- Embedding di CPU
- Generation di GPU

Untuk banyak kilang, anda tak perlukan konfigurasi ekstrem. Contoh profil DGX Spark menunjukkan model LLM 8B terkuantisasi + RAG boleh berjalan selesa sekitar ~14 GiB penggunaan DRAM puncak.

Cara Praktikal Mula Projek RAG On‑Device Di Kilang

Tak perlu tunggu “strategi AI korporat” serba lengkap untuk bermula. Mulakan kecil, dekat dengan masalah sebenar jurutera.

Berikut pendekatan langkah demi langkah yang biasanya berkesan di kilang elektronik, automotif dan semikonduktor:

1. Pilih satu kegunaan yang sakitnya jelas

Contoh yang sering berhasil:

Carian pantas dalam SOP rework, control plan dan WI di line
Pembantu teknikal untuk mesin tertentu (SMT, molding, tester)
Carian dalam ECN/PCN dan change history untuk jurutera produk

Lebih fokus, lebih senang ukur impak — misalnya pengurangan masa carian dokumen dari 20 minit ke 1 minit.

2. Bina korpus dokumen dalaman di on-prem

Kumpulkan PDF, Word, Excel, laman Confluence, e‑mail teknikal penting
Simpan dalam storan selamat pada rangkaian dalaman sahaja
Gunakan pipeline chunking teks dan embedding di CPU

Di sini, RAG benar‑benar bersinar kerana tiada dokumen dihantar ke cloud umum.

3. Gunakan stack perisian ringan tetapi mantap

Gabungan yang seimbang untuk proof-of-concept di kilang:

FAISS untuk carian vektor pantas
llama.cpp atau setara untuk jalankan LLM terkuantisasi di CPU/GPU
API Python ringkas untuk hubungkan UI (web chat, plugin MES, dsb.)

4. Optimumkan untuk CPU dahulu, kemudian GPU bila perlu

Pastikan embedding berjalan lancar di CPU dengan masa tindak balas <100 ms
Guna model 4–8B parameter yang boleh hidup dalam memori workstation
Hanya tambah GPU bila anda perlukan lebih banyak serentak pengguna atau konteks lebih panjang

5. Uji dengan jurutera sebenar, bukan hanya IT

Ajak PE, IE, TE, QA guna sistem dalam kerja harian
Rekod jenis soalan yang mereka tanya dan dokumen mana paling kerap dirujuk
Pantau kes di mana AI salah atau kurang yakin, dan tweak index atau korpus

Apabila pasukan di line mula berkata, “Senang cari spec sekarang, tak perlu selak PDF satu‑satu,” anda tahu projek ini bergerak ke arah yang betul.

Menjadikan CPU Sebagai Enjin AI Strategik Di Kilang

Dalam siri AI dalam Pembuatan (Elektronik, Automotif, Semikonduktor), satu tema yang jelas muncul:

AI yang benar‑benar memberi nilai di kilang bukan hanya tentang model besar, tetapi tentang seni bina sistem yang betul di tempat yang betul.

RAG pada platform seperti DGX Spark menunjukkan bahawa:

CPU berprestasi tinggi ialah pemain utama, bukan sekadar “pre‑processor”
Embedding, carian, penyusunan prompt — kebanyakannya berjalan lebih efisien di CPU
Unified Memory memudahkan CPU dan GPU bekerjasama tanpa overhead pemindahan data yang rumit

Bagi pengeluar di Malaysia yang sedang menaik taraf kilang ke arah smart factory:

Bila merancang roadmap AI, letakkan spesifikasi CPU setaraf penting dengan pelaburan GPU
Fikirkan RAG sebagai lapisan asas untuk semua aplikasi AI yang berurusan dengan dokumen dalaman dan SOP
Mulakan di satu line atau satu keluarga produk, dan skalakan secara berperingkat

Kalau anda sedang memimpin transformasi digital di kilang, soalan praktikalnya sekarang ialah:

Adakah workstation dan PC industri anda hari ini sudah cukup bersedia dari sudut CPU dan memori untuk menyokong RAG on‑device esok?

Jika jawapannya belum yakin, inilah masa terbaik — sebelum tahun kewangan baharu — untuk menyemak semula pelan pelaburan hardware dan jadikan CPU sebagai enjin utama AI di kilang anda.