🇲🇾 CPU, RAG & AI Tepi Rangkaian Untuk Kilang Pintar - Malaysia

AI dalam Pembuatan (Elektronik, Automotif, Semikonduktor)•14 Disember 2025•By 3L3C

CPU moden sedang menjadi enjin utama RAG on-device untuk kilang pintar, dengan AI tepi rangkaian yang pantas, selamat dan praktikal untuk E&E, automotif dan semikon.

AI dalam pembuatankilang pintarRAGon-device AIedge AICPU Armindustri elektronik Malaysia

CPU Bukan Lagi Sidekick: Asas AI Tepi Rangkaian Dalam Kilang Pintar

Dalam banyak kilang elektronik dan automotif di Malaysia, jurutera masih menghabiskan masa 30–40 minit hanya untuk mencari satu spesifikasi dalam timbunan PDF: datasheet, SOP, dokumen proses, laporan kualiti. Sedangkan line production tak menunggu.

Di masa yang sama, hampir semua dokumen ini bersifat sulit – spesifikasi produk pelanggan, resepi proses semiconductor, parameter mesin SMT atau die attach. Menghantar data ini ke awan untuk dianalisis oleh model AI umum memang bukan pilihan yang selamat.

Di sinilah on-device AI dan edge AI mula jadi topik penting untuk kilang pintar. Dan satu realiti yang ramai terlepas pandang: CPU moden, bukannya GPU semata-mata, sedang menjadi tulang belakang AI praktikal di lantai produksi, khususnya bila kita bercakap tentang Retrieval-Augmented Generation (RAG).

Blog ini kupas bagaimana seni bina RAG berasaskan CPU + GPU (seperti yang digambarkan dalam kajian pada platform DGX Spark) boleh diterjemah terus ke konteks kilang elektronik, automotif dan semiconductor di Malaysia – dan apa yang perlu pasukan anda buat seterusnya.

Apa Itu RAG Dalam Bahasa Jurutera Kilang

RAG (Retrieval-Augmented Generation) pada asasnya ialah pembantu teknikal AI yang sentiasa merujuk dokumen dalaman anda sebelum menjawab.

Dalam konteks kilang:

"Dokumen" = datasheet IC, recipe mesin, control plan, FMEA, log maintenance, WI, laporan audit,
"Soalan" = query daripada jurutera proses, QE, maintenance, operator.

Aliran asas RAG:

Pengguna tanya dalam bahasa biasa (contoh: “Berapa nilai default pull-down untuk pin ini?” atau “Apa parameter reflow untuk PCBA model X?”).
Sistem tukar soalan ini kepada vektor (embedding).
Sistem cari petikan dokumen paling relevan dalam vector database.
Model bahasa (LLM) jana jawapan, berdasarkan petikan dokumen yang ditemui, siap dengan rujukan.

Kesan praktikal untuk kilang:

Masa mencari maklumat teknikal turun dari puluhan minit kepada beberapa saat.
Operator baru boleh dapat jawapan tahap "senior engineer", tapi tetap merujuk dokumen yang diluluskan.
Risiko "jawapan sedap tapi salah" (hallucination) jauh berkurang kerana LLM wajib berpaut kepada dokumen sebenar.

Ini jauh lebih masuk akal untuk persekitaran pembuatan berisiko tinggi berbanding hanya bergantung pada LLM awan generik yang anda tak boleh audit sumbernya.

Kenapa CPU Sebenarnya Lebih Sesuai Untuk RAG Di Kilang

Kebanyakan orang terus fikir: "AI = GPU". Untuk training model besar memang betul. Tapi untuk RAG on-device dalam kilang, profil kerja berbeza.

Dalam pipeline RAG, ada beberapa bahagian utama:

Embedding teks (soalan pengguna & potongan dokumen)
Carian vektor (FAISS atau setara)
Inference LLM (llama.cpp dan lain-lain)
Logik aplikasi (API, integrasi MES/SCADA/PLM)

1. Embedding: Kerja Kecil, Sensitif Latensi – Makanan CPU

Embedding biasanya memproses:

Satu soalan pendek, atau
Beberapa baris teks.

Batch sangat kecil, tapi perlu latensi rendah (<100 ms) supaya interaksi rasa "real-time".

Jika tugas sekecil ini dihantar ke GPU:

Ada overhead scheduling,
Ada latency perpindahan data (contoh PCIe),
Penggunaan GPU jadi tidak efisien.

Dalam kajian pada DGX Spark, embedding berasaskan CPU Arm (Cortex-X + Cortex-A) dengan model int8:

Memberi masa respons sekitar 70–90 ms untuk embedding,
Kekal responsif walaupun dalam mod kuasa rendah,
Skalakan dengan baik untuk beban pertanyaan berterusan.

Untuk kilang, ini bermaksud:

Terminal di line SMT, stesen QA, atau bilik failure analysis boleh jalankan RAG lokal tanpa perlu GPU besar.
GPU (jika ada) boleh fokus pada tugas berat seperti analisis imej AOI/AXI, bukannya embedding teks kecil.

2. CPU Menang Dalam Logik, Integrasi & Orkestrasi

Dalam sistem kilang sebenar, embedding hanya sebahagian kecil cerita. CPU juga mengurus:

Integrasi dengan MES, ERP, PLM, QM,
Kawalan hak akses (bukan semua orang boleh baca semua dokumen),
Logging dan audit trail (penting untuk automotif & medical),
Pra-pemprosesan teks (pembersihan PDF, OCR, splitting).

Semua ini kerja bercorak kawalan, I/O berat, tidak sesuai dijalankan di GPU. Di sinilah CPU memang dominan, dan patut dimanfaatkan sepenuhnya.

Unified Memory: Kunci AI Tepi Rangkaian Yang Laju & Stabil

Banyak kilang mula uji workstation AI di tepi rangkaian (edge server berhampiran line). Masalah klasik bila guna CPU + GPU tradisional:

Data embedding dihasilkan di CPU,
Kemudian perlu disalin ke memori GPU melalui PCIe,
Menambah latensi dan menyusahkan pengaturcaraan.

Platform seperti DGX Spark menyelesaikan isu ini melalui Unified Memory:

CPU dan GPU kongsi ruang memori fizikal yang sama.
Vektor embedding yang dijana CPU boleh diakses GPU secara terus.
Tiada salinan data manual, tiada kod tambahan untuk pengurusan buffer yang kompleks.

Dalam profil penggunaan yang dilaporkan:

Idle: ~3.5 GiB (OS + servis asas),
Selepas model LLM 8B quantized dimuatkan: ~12 GiB,
Semasa embedding di CPU: ~13 GiB,
Semasa generasi jawapan di GPU: ~14 GiB,
Selepas query selesai: kekal sekitar 12 GiB (model kekal dalam RAM).

Apa maknanya untuk pasukan IT & OT di kilang Malaysia:

Skala memori boleh diramal: tambahan ~10 GiB daripada idle ke beban puncak RAG.
Model dan index vektor tak perlu dimuat semula bagi setiap pertanyaan – respons jauh lebih pantas.
Rekabentuk aplikasi lebih ringkas; anda boleh fokus pada business logic, bukan traversal PCIe.

Bila anda letak sistem macam ini bersebelahan line produksi (bukan di data center jauh), perbezaan beberapa puluh milisaat terkumpul menjadi perbezaan pengalaman pengguna yang ketara.

RAG Dalam Kilang Elektronik, Automotif & Semiconductor

Rangka kerja yang sama boleh diterjemah terus ke beberapa senario tipikal di Malaysia.

1. Sokongan Jurutera Proses & QE

Gunakan RAG tempatan berasaskan CPU untuk:

Cari parameter proses untuk produk atau mesin spesifik.
Menjawab soalan seperti:
- "Apakah spec wire bond untuk device XYZ pada leadframe ini?"
- "Apakah kriteria lulus/gagal untuk solder voiding pada model automotif ABC?"
Pulangkan jawapan beserta rujukan dokumen (tajuk, nombor jadual, tarikh revisi).

Manfaat:

Pengurangan masa MTTD (Mean Time To Data) bila ada isu di line.
Pengetahuan tak lagi terkunci dalam kepala beberapa "senior".
Memudahkan onboarding jurutera baru.

2. Operator Assist Di Line

Bayangkan panel HMI atau tablet di line yang membenarkan operator tanya:

"Apa tindakan bila AOI detect defect jenis ini?"
"Apa limit maksimum rework untuk board ini?"

RAG boleh menjawab dengan:

Arahan langkah demi langkah,
Rujuk kepada WI rasmi,
Dalam bahasa yang lebih mudah difahami, tapi masih tepat.

Kerana semua berjalan on-device, data proses dan nombor lot kekal dalam rangkaian dalaman. Sesuai dengan keperluan pelanggan automotif dan elektronik global yang semakin ketat terhadap keselamatan data.

3. Analisis Kualiti & Kegagalan (FA / RMA)

Pasukan QA dan FA selalunya perlu:

Rujuk ratusan laporan terdahulu,
Bandingkan corak kegagalan (crack pattern, ESD event, corrosion, dsb.).

RAG boleh:

Cari laporan yang paling serupa berdasarkan deskripsi tekstual kegagalan,
Menarik parameter proses, vendor, batch yang berkaitan,
Mengurangkan masa mencari "case yang pernah berlaku dulu".

Dengan CPU mengurus embedding dan carian teks, GPU (jika ada) boleh digunakan selari untuk analisis imej mikroskop, CT scan atau imej X-ray yang lebih berat.

Reka Bentuk Sistem: Bagaimana Untuk Mula Di Kilang Anda

Berikut satu rangka praktikal berdasarkan idea dari implementasi DGX Spark, tetapi disesuaikan dengan realiti kilang Malaysia.

1. Mula Dengan Dataset Kecil Tapi Realistik

Contoh:

Satu produk utama (contoh: satu keluarga ECU, satu sensor, satu IC),
Dokumen berkaitan: datasheet, WI, control plan, recipe mesin.

Langkah awal:

Pisahkan dokumen kepada chunk (contoh 300–800 token),
Jalankan embedding di CPU menggunakan model int8,
Bina index FAISS tempatan.

2. Gunakan LLM Quantized Yang Muat Di Workstation Kilang

Anda tak perlu model 70B parameter untuk kebanyakan kerja teknikal dalaman.

Model 7B–8B yang di-quantize sudah memadai,
Boleh dijalankan melalui llama.cpp di workstation desktop dengan RAM 32–64 GiB.

CPU:

Urus embedding + pipeline logik,
Urus integrasi aplikasi.

GPU (jika ada):

Percepat inference LLM,
Atau fokus pada use case lain (contoh vision inspection).

3. Pastikan "Grounding" & Audit Trail

RAG yang baik sentiasa tunjuk sumber jawapan:

Tunjuk nama dokumen, seksyen, nombor jadual,
Simpan log pertanyaan dan dokumen mana yang dirujuk.

Dalam industri automotif dan semiconductor, ini penting untuk:

Audit IATF/ISO,
Penjejakan keputusan teknikal,
Bukti bahawa proses anda masih berdasarkan dokumen yang diluluskan.

4. Fikir Tentang Privasi & Segmentasi Data Sejak Awal

On-device AI memang membantu privasi, tapi reka bentuk masih perlu teliti:

Pisahkan index RAG mengikut pelanggan atau produk sensitif,
Kawal akses berdasarkan peranan (role-based access),
Pastikan log tidak mengandungi maklumat pelanggan yang tak perlu.

Dalam banyak kes, satu node RAG CPU-only di dalam zon OT sudah cukup sebagai permulaan. Jika kemudiannya beban meningkat, barulah tambah GPU atau node tambahan.

Kenapa Masa Yang Tepat Untuk Re-Evaluasi Peranan CPU Dalam AI Kilang

Ada dua salah faham besar dalam perbincangan AI di pembuatan:

"Kalau tak ada GPU besar, tak boleh buat AI yang berguna."
"AI untuk kilang mesti duduk di cloud."

Realitinya berbeza:

Kebanyakan kerja AI praktikal di kilang ialah retrieval, carian, embedding, integrasi sistem – semua ini domain CPU.
Untuk banyak use case, latensi rendah dan privasi lebih penting daripada model LLM paling besar.
Seni bina seperti yang ditunjukkan pada DGX Spark membuktikan bahawa CPU berprestasi tinggi (contoh Arm Cortex-X/A) + Unified Memory ialah kombinasi yang sangat relevan untuk on-device AI di kilang.

Untuk sektor elektronik, automotif dan semiconductor Malaysia yang sedang mengejar status kilang pintar serantau, ada ruang besar untuk pasukan kejuruteraan dan IT:

Mula dengan pilot RAG tempatan di satu line atau satu produk,
Buktikan nilai (masa carian maklumat, masa troubleshooting, kadar first-pass yield),
Kemudian skala ke kilang lain.

Saya secara peribadi lihat pola yang sama berulang: syarikat yang awal menganggap CPU sebagai pemain utama RAG akan lebih pantas melancarkan penyelesaian AI yang benar-benar dipakai di lantai produksi, bukan sekadar projek POC di slaid PowerPoint.

Langkah Seterusnya Untuk Pasukan Anda

Bagi pasukan di Malaysia yang serius tentang AI dalam pembuatan:

Tinjau semula infrastruktur desktop/edge sedia ada – banyak CPU workstation hari ini sebenarnya sudah cukup untuk RAG berskala kecil.
Kenal pasti satu "pain point" maklumat yang nyata: dokumentasi proses, kualiti, atau maintenance.
Bentuk pasukan kecil (IT + OT + jurutera proses) untuk buat prototaip RAG tempatan berasaskan CPU.

CPU bukan lagi hanya pre-processor untuk GPU. Dalam seni bina RAG yang betul, CPU ialah enjin latensi-rendah yang menjadikan AI di kilang terasa pantas, selamat dan boleh dipercayai.

Syarikat yang berani menstrukturkan semula peranan CPU dan membawa AI turun ke tepi rangkaian akan berada selangkah di hadapan – terutama bila pelanggan global mula menilai tahap kecerdasan dan kecekapan kilang, bukan hanya kos buruh dan keluasan lantai.