人工智能在半导体与芯片设计•2026年2月13日•By 3L3C

新型bulk RRAM把矩阵计算搬进内存，缓解AI“记忆墙”。它将影响车端边缘AI的能效与在线学习，也放大Tesla与中国车企软硬路线差异。

RRAM存内计算边缘AI自动驾驶3D存储半导体工艺

Featured image for RRAM把计算搬进内存：车端AI与“记忆墙”新拐点

RRAM把计算搬进内存：车端AI与“记忆墙”新拐点

芯片行业有个老问题：算力涨得飞快，数据搬运却越来越拖后腿。对大模型也好，对智能汽车也好，真正烧钱、烧电、烧时间的，常常不是“算”，而是把权重和激活从内存搬到处理器、再搬回去的那一段路——这就是AI圈反复提到的**“记忆墙（Memory Wall）”**。

2025-12 的 IEDM 上，加州大学圣地亚哥分校（UC San Diego）团队展示了一种全新的电阻式随机存取存储器（RRAM）路线：他们不是在材料里“长出随机导电细丝”，而是让整层材料整体切换电阻（bulk RRAM）。更关键的是：他们把这种器件做到了40 nm 尺寸，并实现了最多8层3D堆叠，还在一个1KB阵列上跑了持续学习任务，准确率达到90%。

这条新闻的价值，不只在“存储器又有新花样”。我更关心的是：它可能改变车端AI的系统分工。当内存本身能做矩阵乘加，智能车的AI路线就会出现更清晰的分岔——也正好对应我们这期主题：Tesla 的软件优先，与部分中国车企更偏硬件创新驱动的AI战略差异。

记忆墙到底卡在哪里：车端AI不是缺算力

先给结论：记忆墙的本质是“带宽/能耗被数据搬运吃掉”，而不是算术单元不够多。

以自动驾驶为例，车端要同时处理多路摄像头、雷达、超声、地图与状态信息，典型工作流是“感知—融合—预测—规划”。这些链路依赖大规模矩阵运算（尤其是卷积、注意力、MLP），但在传统Von Neumann架构里，矩阵乘加要把数据在DRAM/SRAM与MAC阵列之间反复搬运。

在实际系统里，问题会表现为三件事：

延迟不稳定：数据通路拥堵时，推理时延出现抖动，直接影响车辆控制闭环。
功耗结构失衡：算力芯片上“算”的能耗下降了，但“搬”的能耗占比上升，整车能耗管理更难。
模型落地被迫妥协：为了满足实时性，工程上常把模型裁剪、量化、分层缓存，牺牲泛化与鲁棒性。

所以，谁能让“算”更靠近“存”，谁就能在车端AI的下一阶段拿到更好的系统上限。

bulk RRAM是什么：不靠细丝，靠“整层切换”

先把核心点说清楚：RRAM用“电阻值”存数据；把大量RRAM单元排成阵列后，可以用模拟电流天然完成矩阵乘加。

传统细丝型RRAM为什么难做计算

传统RRAM常用“细丝（filament）”机制：在介质里形成低电阻导电通道。

但它有几类硬伤，直接卡住“存内计算（in-memory computing）”：

成丝电压偏高：常需高电压成形，不友好于标准CMOS流程，集成难。
随机性与噪声：细丝生成过程天生随机，电阻值会漂移。把它映射到神经网络权重上，就等于权重在“自发抖动”，同一个输入隔天可能输出不同。
往往需要选择器晶体管（selector）：为了隔离噪声与串扰，单元常配选择器，结果导致3D堆叠受限、密度上不去。

bulk RRAM的做法：让一整层材料切换

UC San Diego团队的思路很直接：把“随机细丝”这条路彻底放弃，改成让器件中的整个薄层在高阻/低阻之间切换。

这样带来两项系统级好处：

免成形（form-free）或低成形成本：避免高电压成丝步骤，更利于与CMOS集成。
不依赖选择器：更容易做高密度阵列和3D堆叠。

他们展示的指标有几个特别“工程化”：

器件尺寸：40 nm
3D堆叠层数：最多8层
单元可编程电阻状态：64个电阻值（多级存储，对模拟权重更友好）
电阻范围：兆欧级（MΩ），相比许多细丝型的千欧级（kΩ）更适合并行阵列操作（更利于控制电流、降低阵列互扰）

一句话概括：bulk RRAM是在为“阵列并行矩阵运算”专门做的器件形态。

从论文到落地：为何这次更像“车端AI的零件”

结论先行：这类bulk RRAM更贴近边缘端（edge）AI的真实需求——在本地学习、本地适应、低功耗长时运行。

研究团队把多个8层堆叠组装成1KB阵列，并在其上运行持续学习（continual learning）算法：用可穿戴传感器数据做动作分类（坐、走、爬楼梯等），并“边用边学”不断加入新数据，最终做到90%准确率，接近数字实现的神经网络。

对智能车而言，这个demo虽然小，但指向很清晰：

车端系统需要处理分布漂移（城市、路况、光照、车况变化）。
许多能力需要“在线适配”，但又不能把数据频繁上云（成本、隐私、时延）。
传统车端推理强、训练弱；而“在存内计算+多级电阻权重”可能让“轻量训练/微调”变得更现实。

如果把它放进“人工智能在半导体与芯片设计”这条叙事里，我的判断是：**存内计算不是替代GPU/SoC，而是把一部分最耗带宽的算子（矩阵乘加）下沉到存储阵列，用系统设计换取能效与实时性。**这会逼着芯片验证、EDA建模、良率优化全链路跟着升级。

Tesla vs 中国车企：AI战略差异会被内存技术放大

先说结论：**Tesla的优势在软件闭环与数据体系；而硬件型创新（比如RRAM、3D存储、专用加速阵列）更可能成为部分中国车企“弯道加速”的杠杆。**两者不是谁对谁错，而是路径不同。

Tesla：软件优先，靠数据与迭代吃满硬件

Tesla长期以来更像“用软件把通用硬件榨干”的路线：

强调端到端、数据驱动训练、快速迭代
通过车队数据闭环提升模型能力
硬件层面会做自研（如FSD芯片），但核心竞争叙事仍是软件与规模化部署

在这个框架里，记忆墙通常通过工程方式缓解：算子融合、量化、编译优化、缓存策略、模型结构迭代。

中国车企：更愿意押注“系统级硬件创新”

不少中国车企与供应链的组合拳更“硬件友好”：

更积极尝试多传感器融合与多域控制，天然需要更高的并行度
供应链能更快导入新型存储/封装/加速器思路（HBM替代、Chiplet、3D堆叠、近存计算）
在成本与能耗受限的车型上，硬件能效提升往往比纯软件优化更“立竿见影”

如果bulk RRAM成熟，它带来的不是“更快的单次推理”，而是三类战略级改变：

能效优势可直接换续航：车端AI功耗下降，热设计压力降低。
本地学习更可行：对个体驾驶风格、轮胎磨损、传感器偏移做轻量自适应。
架构分工变化：SoC不必承担所有矩阵乘加，存储阵列成为“第二计算平面”。

换句话说：Tesla擅长把“软件做成产品”；而硬件突破让一些中国玩家有机会把“硬件做成差异化”。谁能更快把两者合成一套工程可量产的体系，谁就赢。

真正的难点：高温数据保持与量产工程

bulk RRAM看起来很美，但要进车规，我认为至少要过三道关。

1) 高温保持（retention）与车规环境

文章里提到：该器件在室温可保持多年，接近Flash。但来自Sandia国家实验室的研究者Albert Talin指出关键疑问：在更高温度（更接近计算机/车载工作温区）下的保持性仍不确定。

车规环境常见挑战包括：

长时间高温（舱内、引擎舱附近、封装热点）
温度循环导致材料应力与漂移
震动与电磁干扰对模拟阵列读写稳定性的影响

2) 模拟计算的校准与容错

存内计算往往是模拟域完成乘加，现实里要面对：噪声、漂移、器件差异。

工程上需要配套：

校准（calibration）与在线补偿
误差感知训练（training-aware error）
冗余与容错映射（比如把关键权重复制到多个单元）

这恰好把“芯片设计验证、制程优化、良率提升”推到台前：你得在EDA阶段就把器件统计分布建模进去，否则系统指标会漂。

3) 与CMOS、3D堆叠、封装的协同

8层堆叠只是开始。要走向更大阵列、更高良率，需要解决：

3D互连与寄生参数对阵列精度的影响
写入脉冲一致性与供电完整性
测试（DFT）与可测性：多级电阻状态的测试成本会显著高于SRAM

我个人的观点是：存储新器件能否上车，最后拼的不是单点指标，而是“系统可制造性”。

给产业团队的可执行建议：从现在就能做什么

如果你在做智能汽车、边缘AI芯片、或半导体工艺/EDA，我建议把bulk RRAM当作“中期变量”，现在就开始三件事：

把“数据搬运成本”量化进指标体系
- 不只看TOPS/W，也看每帧（或每秒）外存访问量、片上带宽占用与热密度。
建立面向存内计算的模型与算子筛选
- 优先评估矩阵乘加密集的模块（感知主干、BEV特征聚合、部分注意力层）。
- 先从小阵列、低精度、容错更强的子网络开始，而不是一口气替换整网。
让芯片设计与算法团队一起做“误差预算”
- 先定义可接受的推理误差、漂移阈值，再倒推器件参数与校准频率。
- 把器件漂移当作“系统噪声源”纳入仿真，这会显著减少后期返工。

一句很现实的话：谁先把“新器件的不完美”当作设计输入，谁就更可能把它做成量产能力。

结尾：记忆墙是下一场竞争的主战场

bulk RRAM把一个趋势说得更直白：**AI系统的瓶颈正在从“算力不足”转向“数据移动过贵”。**当计算开始向内存迁移，边缘端AI（尤其是车端）会获得更好的能效与实时性，也会打开“本地学习/自适应”的想象空间。

对我们的系列主题“人工智能在半导体与芯片设计”而言，这类进展意味着：芯片设计不再只是堆算力，验证与工艺优化也不再只盯频率和面积，而要把器件统计特性、3D集成、系统级误差容忍一起纳入。

接下来最值得追的不是“能不能跑通demo”，而是：**在高温、长寿命、可制造的前提下，存内计算能把车端AI的成本/能耗曲线压到什么程度？**当这个答案逐步清晰，Tesla与中国车企的AI路线差异，也会被放大得更明显。