Pengurusan haba 3D‑IC kini penentu utama kejayaan AI dalam kilang pintar. Fahami cara model, bahan dan penyejukan membentuk prestasi dan kebolehpercayaan sistem anda.
Mengurus Haba 3D‑IC: Tulang Belakang Senyap Kilang Pintar AI
Purata cip AI terkini untuk data center boleh melepasi 600W satu modul, dengan sebahagian besar kuasa itu bertukar menjadi haba. Dalam 3D‑IC yang digunakan dalam GPU, CPU automotif dan pengawal kilang pintar, fluks haba setempat boleh menghampiri zon termal pelancaran roket – cuma pada skala mikron.
Ini bukan isu remeh untuk Malaysia. Ekosistem E&E kita – dari kilang Intel dan Infineon di Pulau Pinang hinggalah pembekal automotif dan EMS – sedang menolak lebih banyak AI ke dalam barisan pengeluaran, robotik dan sistem kualiti pintar. Setiap model AI yang lebih besar bermakna kuasa lebih tinggi, lebih banyak 3D‑IC, dan risiko lebih besar jika pengurusan haba tidak dibuat betul daripada awal.
Dalam artikel ini, saya akan kupas kenapa pengurusan haba 3D‑IC perlu dianggap sebagai keputusan seni bina, bukan tugasan “tampal heatsink di hujung projek”. Kita akan kaitkan terus dengan realiti kilang pintar: dari penggunaan AI untuk pemeriksaan kualiti, automasi automotif, sehinggalah ke predictive maintenance berasaskan data.
Kenapa 3D‑IC Panas Sangat Dalam Aplikasi AI Kilang Pintar
Punca utama ialah gabungan ketumpatan kuasa menegak, bahan, dan jarak kepada sistem penyejukan.
Dalam reka bentuk 3D‑IC, anda biasanya akan:
- Tindih lapisan logik, memori (HBM, DRAM), dan pemecut AI
- Tingkatkan kuasa per unit keluasan dengan ketara
- Letak die atas jauh daripada heatsink utama
Hasilnya:
- Die paling atas alami rintangan terma lebih tinggi dan lebih sukar disejukkan
- Walaupun kuasa setiap die nampak “ok” atas kertas, kombinasi seluruh timbunan menjadikan hotspot yang agresif
Struktur seperti through‑silicon via (TSV), micro‑bump dan tiang interconnect pula berfungsi dua dalam satu:
- Laluan elektrik
- Laluan konduksi haba (bergantung pada susunan dan bahan)
Dalam sistem kilang pintar, ini muncul sebagai:
- Modul AI untuk visi komputer di line inspection gagal lebih awal kerana tekanan terma
- Pengawal automotif berasaskan 3D‑IC dalam robot lengan mengalami drift prestasi bila suhu naik, menyebabkan ketepatan kedudukan berkurang
- Sistem edge AI dalam persekitaran fabrik panas terpaksa throttle prestasi bila suhu puncak melebihi had selamat
Realitinya: jika anda tidak modelkan haba sejak peringkat seni bina, anda sebenarnya sedang “meminjam masalah” yang akan muncul ketika bring‑up atau lebih teruk, di lapangan.
Pemodelan Awal: Senjata Utama Menangani Hotspot 3D‑IC
Jawapan ringkasnya: mulakan analisis terma serentak dengan definisi seni bina, bukan selepas floorplan siap.
Model kompak & peta kuasa awal
Pereka boleh gunakan model terma kompak (compact thermal model, CTM) untuk:
- Anggar taburan suhu berdasarkan bajet kuasa per blok
- Pertimbangkan ketebalan die, susunan bahan, lapisan bonding dan sifat interposer
- Menilai sama ada kombinasi "stack + kuasa + penyejukan" masih realistik
Yang menarik, pada peringkat ini anda tidak perlu vektor aktiviti RTL penuh. Cukup dengan:
- Profil beban kasar (contoh: penggunaan AI inference 70%, idle 30%)
- Anggaran kuasa dinamik & leakage per blok
Digabung dengan model geometri ringkas, ini sudah memadai untuk:
- Kenal pasti kawasan berpotensi hotspot
- Ubah pembahagian fungsi antara die (logic vs memory vs I/O)
- Ubah anggaran kedudukan blok sebelum pasukan physical design masuk fasa terperinci
Di mana AI boleh bantu di sini?
Dalam konteks kilang pintar, banyak syarikat mula:
- Menggunakan AI/ML untuk memendekkan loop pemodelan multiphysics – contohnya melatih model untuk meramal peta suhu berdasarkan variasi kuasa dan struktur stack tanpa perlu simulation penuh setiap kali
- Memastikan perkakasan AI yang mereka bangunkan selari dengan keperluan termal barisan pengeluaran – bukan sekadar “laju di lab, panas di lantai kilang”
Bagi vendor semikonduktor di Malaysia, pendekatan ini menjadikan masa ke pasaran (time‑to‑market) lebih terkawal dan mengurangkan risiko re‑spin mahal akibat isu haba lewat dikesan.
Laluan Haba: Dari Die Ke Interposer, Ke Pakej, Ke Kilang
Untuk 3D‑IC, haba tidak keluar melalui satu laluan sahaja. Ia merebak:
- Menegak melalui lapisan die dan lapisan bonding
- Mengufuk melalui silikon dan metal layer
- Turun ke interposer, substrat, heat spreader dan akhirnya heatsink atau penyejuk cecair
Peranan interposer dalam penyebaran haba
Tiga jenis interposer biasa dalam sistem AI & HPC:
-
Interposer silikon
- Konduktiviti terma tinggi, sangat baik untuk menyebar haba
- Tetapi boleh juga memusatkan beban termal bila chiplet dikumpulkan rapat
-
Interposer kaca
- Masih dalam proses komersialisasi, seimbang dari sudut elektrik dan mekanikal
- Perlu pemodelan teliti kerana sifat termal berbeza berbanding silikon
-
Interposer organik
- Lebih murah, sesuai untuk sesetengah aplikasi automotif dan E&E
- Rintangan terma lebih tinggi, jadi ramalan suhu perlu lebih konservatif
Dalam kilang pintar yang menggunakan banyak modul AI berasaskan chiplet, pemilihan interposer bukan saja isu kos dan prestasi elektrik, tetapi terus mempengaruhi:
- Bilangan unit AI yang boleh dipasang dalam satu kabinet kawalan
- Bentuk sistem penyejukan di lantai produksi (air‑cooling saja atau perlu penyejukan cecair)
Jangan abaikan kesan pakej
Banyak pasukan reka bentuk silap di sini: mereka modelkan terma di peringkat die tetapi tidak memasukkan struktur pakej penuh pada peringkat awal. Ini menyebabkan ramalan suhu terlalu optimistik.
Bagi sistem AI di kilang Malaysia yang biasanya beroperasi dalam persekitaran ambien lebih tinggi (30–35°C berbanding data center ber‑aircond 20–24°C), kesan ini bertambah besar. Pakej dan penyejukan mesti dimodelkan sebagai satu sistem.
Bahan, TIM & Strategi Penyejukan Untuk Stack 3D‑IC
Prestasi terma 3D‑IC sangat bergantung kepada struktur dan bahan, bukan hanya reka bentuk litar.
Peranan bahan & TIM
Beberapa tuil yang pereka dan pasukan proses boleh ubah:
- Penggunaan silikon berkonduktiviti tinggi untuk die tertentu
- Pemilihan bahan interconnect dan underfill yang lebih baik dari segi terma
- Reka bentuk thermal interface material (TIM) dengan ketebalan terkawal dan coverage yang konsisten
Perbezaan kecil pada TIM – contohnya variasi ketebalan beberapa mikron – boleh menghasilkan:
- Perbezaan suhu puluhan darjah pada hotspot
- Jangka hayat berbeza ketara akibat electromigration dan keletihan terma
Dalam konteks kilang pintar, ini bermaksud modul AI yang “nampak sama” atas datasheet boleh mempunyai:
- MTBF sangat berbeza bila dipasang pada kabinet kawalan yang sempit dan panas
- Tingkah laku drift model AI berbeza antara unit, menjejaskan kestabilan hasil pengeluaran
Memilih strategi penyejukan yang betul
Untuk 3D‑IC dalam AI dan HPC, pilihan kasar biasanya:
-
Penyejukan udara (air‑cooling)
Sesuai untuk:- Kuasa sederhana
- Peralatan automasi kilang yang tidak menjalankan model AI besar secara berterusan
-
Vapor chamber / heat pipe
Sesuai untuk:- Menyebar haba dari hotspot 3D‑IC ke kawasan sirip heatsink lebih luas
- Panel kawalan padat di line SMT atau automotive testing rig
-
Penyejukan cecair langsung (direct liquid cooling)
Semakin relevan untuk:- Rak server AI di pusat data kilang
- Modul GPU/HPC berkuasa ratusan watt setiap unit
Keputusan ini tak boleh dibuat hanya ikut produk generasi sekarang. Roadmap kuasa 2–3 generasi hadapan perlu dimasukkan dalam analisis. Bila die stack sudah dikunci, opsyen menambah penyejukan selalunya sangat terhad dan mahal.
Ko‑Reka Bentuk: Haba, Floorplan & Power Delivery Dalam Satu Gelung
Pengurusan haba yang matang sentiasa berkait dengan floorplanning dan reka bentuk power delivery network (PDN).
Pengaruh terhadap floorplan & penempatan blok
Beberapa prinsip praktikal:
- Letak blok kuasa tinggi berhampiran laluan konduksi terma utama (TSV, pillar, die bawah yang rapat dengan heatsink)
- Elak kumpulkan semua hotspot pada satu sudut die atas – ini hampir pasti menyebabkan throttling atau kegagalan awal
- Manfaatkan lapisan metal sebagai “heat spreader” mengufuk di mana boleh
Untuk kilang pintar, reka bentuk sebegini meningkatkan:
- Kebolehramalan prestasi model AI di edge (contohnya sistem vision pada conveyor belt)
- Keupayaan modul untuk maintain latency rendah walaupun suhu ambien tinggi semasa syif petang
PDN dan tingkah laku elektro‑terma
PDN sendiri menghasilkan haba melalui:
- Rintangan dalam TSV kuasa
- Micro‑bump dan redistribution layer (RDL) yang membawa arus tinggi
Jika anda hanya analisis kuasa tanpa terma, anda akan terlepas:
- Peningkatan rintangan dengan suhu
- Kitaran maklum balas di mana suhu tinggi menaikkan rintangan, menaikkan I²R loss, lalu menaikkan suhu lagi
Sebab itu, syarikat besar biasanya menggunakan aliran kerja elektro‑terma bersepadu:
- Anggar kuasa → analisis terma → kesan suhu pada IR‑drop → kemas kini kuasa & susun semula blok atau TSV → ulang
Memang nampak leceh, tapi inilah caranya anda elak:
- “Surprise” di hujung – contohnya modul AI untuk line inspection tiba‑tiba tak lepas ujian burn‑in pada 85°C
Signoff Elektro‑Terma & Skalabiliti Untuk Kilang Pintar
Sebelum dilepaskan ke produksi, 3D‑IC untuk aplikasi AI kilang pintar perlu melepasi signoff elektro‑terma penuh.
Elemen kritikal yang patut diuji:
- Suhu puncak merentas semua mod operasi (peak AI load, mixed workload, idle)
- Tegangan dan arus PDN pada suhu tinggi dan rendah (contohnya –40°C hingga 125°C untuk automotif)
- Tekanan mekanikal pada sempadan die‑ke‑die, kawasan micro‑bump padat dan kluster TSV
- Kesan jangka panjang suhu terhadap:
- electromigration
- drift prestasi transistor
- kadar kegagalan sambungan dalam pakej
Bagi pemain dalam rantaian bekalan automotif dan E&E Malaysia, keupayaan untuk menunjukkan model elektro‑terma yang kukuh ini menjadi kelebihan kompetitif bila berurus dengan OEM global yang sangat ketat soal kebolehpercayaan.
Merancang untuk skalabiliti termal
Ada satu prinsip mudah di sini:
Reka bentuk seolah‑olah generasi produk seterusnya akan 30–50% lebih panas. Selalunya, itulah yang berlaku bila model AI bertambah besar atau requirement throughput kilang meningkat.
Ini membawa kepada beberapa keputusan praktikal:
- Pilih konfigurasi 3D‑IC dan bahan yang masih ada margin suhu untuk satu lagi generasi kuasa yang lebih tinggi
- Pastikan reka bentuk kabinet, penempatan rak, dan sistem HVAC kilang mengambil kira penyejukan cecair atau modul kuasa tinggi masa hadapan
- Gunakan AI di peringkat kilang untuk monitor suhu modul secara berterusan dan jadualkan penyelenggaraan bila trend drift terma dikesan
Menjadikan Haba Sebagai Parameter Reka Bentuk, Bukan Masalah Lapangan
Kebanyakan syarikat hanya mula mengambil berat bila cip sudah mula throttle atau gagal di line produksi. Pada tahap itu, kos pembaikan sangat tinggi – dari heat sink khas hinggalah redesign pakej.
Ada cara yang lebih bijak.
Bagi ekosistem AI dalam pembuatan elektronik, automotif dan semikonduktor di Malaysia, pengurusan haba 3D‑IC patut dianggap setara penting dengan prestasi model AI itu sendiri. Tanpa asas terma yang kukuh:
- Sistem vision AI boleh gagal mengekalkan kadar ketepatan
- Robot kilang mungkin terhenti di tengah syif kerana modul pengawal terlalu panas
- Barisan pengeluaran semikonduktor berisiko OEE merosot akibat downtime tidak dijangka
Langkah seterusnya untuk pasukan anda:
- Audit semula projek 3D‑IC dan modul AI yang sedang dibangunkan – adakah analisis terma bermula seawal peringkat seni bina?
- Bincang dengan rakan teknologi/EDA tentang aliran kerja elektro‑terma bersepadu dan bagaimana ia boleh dihubungkan dengan inisiatif kilang pintar sedia ada
- Rancang roadmap kuasa & penyejukan modul AI selari dengan pelan automasi kilang untuk 3–5 tahun akan datang
Realitinya, mengurus haba bukan sekadar menambah kipas. Ia tentang bagaimana anda mereka bentuk 3D‑IC, memilih bahan dan merancang kilang supaya AI boleh berjalan laju, stabil dan selamat – tahun demi tahun.