Edge AI sedang mengubah smart factory E&E dan semikonduktor di Malaysia dengan inferens masa nyata, kos lebih rendah dan perlindungan data di lantai produksi.
AI inferens yang dijalankan di awan lazimnya hanya menggunakan 20–40% kapasiti GPU, walaupun di pusat data yang penuh dengan kuasa dan sistem penyejukan. Di kilang elektronik dan semikonduktor, ruang untuk pembaziran macam ni memang tak wujud.
Dalam konteks smart factory di Malaysia – daripada kilang E&E di Penang, Kulim dan Melaka, sampai ke automotif dan EMS – keperluan sebenar ialah AI masa nyata di tepi mesin, bukan jauh di pusat data. Robot tak boleh tunggu rangkaian ‘lag’. Sistem vision QC tak boleh bergantung pada sambungan internet sempurna. Di sinilah edge AI dan seni bina NPU generasi baharu jadi kritikal.
Artikel ini kupas secara praktikal bagaimana peralihan inferens AI daripada awan ke edge berlaku, kenapa ia penting untuk pengilang di Malaysia, dan apa yang sedang berubah pada tahap cip – termasuk pendekatan packet-based NPU seperti yang dibawa oleh Expedera.
Kenapa Pengilang Mula Tinggalkan Inferens AI Berasaskan Awan
Untuk operasi kilang elektronik, automotif dan semikonduktor, AI di awan sudah mula menunjukkan hadnya:
- Latensi tak konsisten, bergantung kepada rangkaian
- Kos operasi (OPEX) awan yang sukar dijangka bila skala meningkat
- Kebimbangan privasi dan IP proses pengeluaran
- Ketergantungan kepada sambungan internet yang stabil (yang tak selalu ideal di lantai produksi)
Edge AI menjawab semua isu ini dengan satu prinsip ringkas: model AI dijalankan terus di peralatan, mesin atau gateway di kilang, bukan di pusat data jauh.
Tiga faedah utama untuk kilang E&E & semikonduktor
-
Latensi konsisten untuk operasi masa nyata
- Robot pengendali wafer, lengan pick-and-place, AGV/AMR dalam gudang – semua bergantung kepada tindak balas milisaat.
- Dengan inferens di edge, keputusan vision, pengelakan halangan dan pelarasan proses dibuat terus di peranti, bukan menunggu round-trip ke awan.
-
Privasi proses dan data pengeluaran
- Data imej wafer, parameter proses, dan resipi pengeluaran ialah IP syarikat.
- Edge AI benarkan pemprosesan dan penapisan dilakukan sebelum data dihantar (jika perlu), atau terus disimpan secara lokal dalam rangkaian kilang.
-
Pengurangan kos operasi jangka panjang
- Kurang trafik data ke awan bermakna bil rangkaian dan awan yang lebih rendah.
- Dengan seni bina NPU yang cekap, kilang boleh menjimatkan tenaga elektrik di peringkat mesin, sesuatu yang sangat relevan untuk fasiliti 24/7.
Bagi syarikat besar seperti pemain semikonduktor global yang beroperasi di Malaysia, arah ke edge AI ini bukannya trend pemasaran – ia strategi untuk memastikan Overall Equipment Effectiveness (OEE) dan yield kekal kompetitif.
Cabaran Utama: AI Di Edge Tak Boleh Mewah Seperti Di Pusat Data
Di pusat data, GPU berjalan dalam rak dengan kuasa elektrik besar, penyejukan industri dan ruang untuk overspec hardware. Di kilang, realitinya berbeza jauh.
Peranti edge di lantai produksi terikat oleh:
- Had kuasa (contoh: modul vision di mesin SMT tak boleh tarik ratusan watt)
- Had haba (chiller utama kilang bukan untuk ‘cool’ GPU tunggal)
- Had memori dan bandwidth (DDR, LPDDR, on-chip SRAM yang terhad)
- Saiz fizikal dan keperluan kebolehpercayaan industri
Di sinilah NPU (Neural Processing Unit) direka khas untuk inferens, bukan untuk general GPU computing. Tetapi walaupun guna NPU, ada satu isu besar yang ramai tak sedar: ketidakpadanan antara struktur rangkaian neural dan blok pemprosesan tetap dalam NPU.
Mismatch antara model dan hardware: punca utilisation rendah
Model AI moden – sama ada vision untuk AOI atau transformer untuk analitik ramalan – terdiri daripada ratusan atau ribuan lapisan dengan dimensi berbeza-beza. Masalahnya:
- Ada lapisan terlalu besar untuk muat sekaligus dalam
compute blockNPU → perlu tiling & recursion, menyebabkan pergerakan memori berulang kali. - Ada lapisan terlalu kecil → sebahagian besar perkakasan terbiar idle, utilisation jatuh.
Walaupun jurutera ulang latih model dan cuba ‘fit’ pada hardware, peningkatan utilisation biasanya tersangkut sekitar 50%. Dalam kilang, itu bermakna anda bayar untuk silikon dan kuasa, tetapi hanya separuh dimanfaatkan.
Pendekatan Packet-Based NPU: Cara Baharu Jalankan Inferens Di Edge
Salah satu perubahan menarik di peringkat seni bina ialah apa yang dilakukan oleh syarikat seperti Expedera: packet-based NPU.
Inti idea ini mudah difahami tetapi kuat: lapisan rangkaian neural dipecahkan kepada “paket kerja” kecil yang bebas, bukannya diproses satu lapisan demi satu lapisan secara linear.
Bagaimana packet-based NPU berfungsi
-
Pecah model kepada paket
Setiap paket mengandungi:- Sub-set operasi (contoh: sebahagian convolution, sebahagian matmul)
- Konteks penuh pelaksanaan (parameter, lokasi data, ketergantungan minimum)
-
Jadualkan paket out-of-order
NPU bebas jalankan paket diluar turutan asal asalkan ketepatan model dikekalkan. Objektifnya:- Kurangkan pergerakan data dari/ke DDR
- Maksimumkan isian
compute unitssepanjang masa
-
Optimasi memori secara agresif
Dengan jadual out-of-order, NPU boleh:- Memproses paket yang berkongsi data sementara data masih berada di on-chip memory
- Elak pattern “baca-DDR → kira → tulis-DDR” yang berulang dan mahal tenaga
Hasilnya, utilisation melonjak ke paras 60–80% pada silikon sebenar, tanpa perlu ubah model asal. Untuk sesetengah pelanggan mereka yang menyesuaikan seni bina lebih mendalam, utilisation boleh menghampiri 90%.
Kesan terus kepada operasi kilang
Untuk smart factory E&E dan semikonduktor, ini bukan hanya nombor cantik pada slaid pembentangan:
- Lebih banyak model dalam satu cip: sistem vision boleh jalankan beberapa model sekali gus (contoh: pengesanan kecacatan, klasifikasi jenis kecacatan, pengesanan misalignment) pada NPU yang sama.
- Kurang tenaga per inferens: pelanggan Expedera melaporkan kecekapan sehingga 16 TOPS/W, cukup kritikal untuk modul edge yang dipasang di mesin yang berjalan 24/7.
- Kurang kebergantungan kepada DDR: trafik DDR untuk model besar seperti Llama 3.2 dan Qwen2 boleh dikurangkan sehingga 79% dan 75%. Dalam konteks kilang, ini bermakna:
- Kurang punca haba daripada DRAM
- Kurang bottleneck memori bila lebih banyak kamera atau sensor ditambah
Dari Cloud Ke Lantai Kilang: Aplikasi Edge AI Yang Paling Memberi Impak
Peralihan inferens AI ke edge bukan soal teknologi semata-mata. Ia tentang senarai kes penggunaan konkrit di kilang yang mula boleh dijayakan bila latensi rendah dan pemprosesan tempatan tersedia.
1. Vision QC & AOI masa nyata
Dalam industri elektronik dan semikonduktor, sistem Automated Optical Inspection (AOI) dan X-ray inspection semakin dipacu oleh deep learning:
- Model CNN atau transformer vision mengesan solder joint bermasalah, micro-crack pada die, ataupun misalignment komponen.
- Dengan NPU di edge, imej dianalisis terus di mesin, output dihantar kepada PLC atau MES dalam milisaat.
- Operator hanya nampak bahagian yang ditandakan “berisiko tinggi”, bukannya ratusan imej mentah setiap minit.
Tanpa edge AI, menghantar aliran imej resolusi tinggi ke awan untuk diproses akan:
- Menambah latensi, hingga mesin perlu berhenti sebentar menunggu keputusan
- Membebankan jaringan kilang dan sambungan keluar
2. Robotik dan automasi material handling
AGV/AMR, lengan robot dan sistem pengendalian wafer atau panel PCB memerlukan:
- Pengecaman objek dan lokasi (melalui kamera atau lidar)
- Perancangan gerakan yang pantas dan selamat
Inferens di edge membenarkan:
- Pengelakan halangan secara masa nyata walaupun rangkaian WiFi/5G dalaman tak sempurna
- Integrasi yang lebih rapat dengan sensor keselamatan dan interlock mesin
3. Penyenggaraan ramalan (predictive maintenance)
Untuk motor, pam, chiller, atau peralatan proses kritikal:
- Sensor getaran, suhu dan arus mengalirkan data berterusan.
- Model AI kecil boleh dijalankan terus pada gateway industri ber-NPU untuk mengesan corak awal kegagalan.
Kelebihan bila inferens berjalan di edge:
- Data mentah tak perlu dihantar ke awan; hanya amaran atau ciri yang diproses dihantar ke sistem pusat.
- Bila sambungan terputus, model masih berjalan dan memberi amaran lokal (contoh: lampu amaran, mesej ke HMI).
Strategi Praktikal Untuk Kilang Di Malaysia Mula Berpindah Ke Edge AI
Bagi pasukan kejuruteraan di kilang, peralihan ke edge AI tak semestinya perlu bermula dengan ‘moonshot’. Ada beberapa langkah praktikal yang saya lihat lebih realistik dan berkesan.
1. Kenal pasti kerja inferens yang paling sensitif kepada latensi
Tanya soalan mudah: di mana kelewatan 100–300 ms sudah cukup menyusahkan? Biasanya:
- Vision untuk mesin berkecepatan tinggi
- Kawalan robot dan AGV
- Sistem keselamatan berasaskan kamera
Mulakan projek perintis dengan kes-kes ini dulu. ROI biasanya jelas dan cepat dibuktikan.
2. Pilih platform edge yang ada NPU dan ekosistem matang
Bila menilai SoC atau modul edge untuk kilang:
- Semak TOPS/W, bukan TOPS semata-mata
- Tanya tentang utilisation sebenar pada workload AI anda, bukan angka teori
- Lihat sama ada seni bina (seperti packet-based) menyokong:
- Pelbagai jenis model (CNN, transformer, model quantized)
- Pengurangan akses DDR dan sokongan memori fleksibel
Paling penting, pastikan ada rantaian alat (toolchain) yang stabil untuk integrasi dengan framework biasa (contoh: PyTorch, TensorFlow, ONNX) supaya pasukan data sains dan jurutera kawalan tak tersekat pada isu porting.
3. Reka seni bina hibrid: edge dahulu, awan bila perlu
Saya sangat menyokong pendekatan “edge-first, cloud-smart” untuk kilang:
- Inferens masa nyata dan kawalan proses → di edge
- Latihan semula model, analitik jangka panjang, konsolidasi data lintas-kilang → di awan atau pusat data korporat
Ini imbangi:
- Kelajuan dan keboleharapan di lantai produksi
- Keanjalan pengkomputeran awan untuk kerja berat seperti retraining model dan simulasi besar
4. Jangan abaikan aspek operasi: pemantauan & keselamatan
Bila semakin banyak NPU dan peranti edge di kilang:
- Sediakan sistem pemantauan kesihatan model (drift, accuracy)
- Tetapkan proses kemas kini firmware dan model yang terkawal (contoh: melalui server dalam rangkaian kilang)
- Pastikan konfigurasi rangkaian meminimumkan permukaan serangan, kerana peranti edge kini menanggung IP AI yang bernilai.
Edge AI Akan Menjadi Standard Dalam Smart Factory Generasi Seterusnya
AI dalam pembuatan elektronik, automotif dan semikonduktor makin bergerak daripada konsep ke operasi harian. Realitinya, model AI yang benar-benar memberi impak kepada pengeluaran akan hidup di edge, bukan terperangkap di awan.
Seni bina seperti packet-based NPU membuktikan bahawa tiga perkara yang dulu nampak bercanggah – utilisation tinggi, pergerakan memori rendah dan keserasian model yang luas – sebenarnya boleh wujud serentak. Untuk pengilang, ini diterjemahkan kepada:
- Lebih banyak kecerdasan di setiap mesin dan robot
- Kos tenaga dan awan yang lebih terkawal
- Keupayaan melindungi proses dan data pengeluaran di dalam pagar kilang sendiri
Bagi kilang-kilang besar di Malaysia yang sudah melabur dalam automasi dan IoT, soalan sekarang bukan lagi sama ada perlu guna AI, tetapi di mana AI itu patut dijalankan. Semakin anda dekatkan inferens kepada mesin dan sensor, semakin tinggi peluang untuk menukar data kepada keputusan yang boleh menaikkan yield, mengurangkan scrap dan menstabilkan operasi 24/7.
Langkah seterusnya? Semak satu atau dua lini pengeluaran yang kritikal, kenal pasti proses yang paling sensitif kepada masa tindak balas, dan mula rancang proof-of-concept edge AI dengan platform NPU yang betul. Dari situ, anda akan nampak sendiri kenapa masa depan smart factory sebenarnya bermula di hujung – di edge.