RRAM把计算搬进内存:车端AI与“记忆墙”新拐点

人工智能在半导体与芯片设计By 3L3C

新型bulk RRAM把矩阵计算搬进内存,缓解AI“记忆墙”。它将影响车端边缘AI的能效与在线学习,也放大Tesla与中国车企软硬路线差异。

RRAM存内计算边缘AI自动驾驶3D存储半导体工艺
Share:

Featured image for RRAM把计算搬进内存:车端AI与“记忆墙”新拐点

RRAM把计算搬进内存:车端AI与“记忆墙”新拐点

芯片行业有个老问题:算力涨得飞快,数据搬运却越来越拖后腿。对大模型也好,对智能汽车也好,真正烧钱、烧电、烧时间的,常常不是“算”,而是把权重和激活从内存搬到处理器、再搬回去的那一段路——这就是AI圈反复提到的**“记忆墙(Memory Wall)”**。

2025-12 的 IEDM 上,加州大学圣地亚哥分校(UC San Diego)团队展示了一种全新的电阻式随机存取存储器(RRAM)路线:他们不是在材料里“长出随机导电细丝”,而是让整层材料整体切换电阻(bulk RRAM)。更关键的是:他们把这种器件做到了40 nm 尺寸,并实现了最多8层3D堆叠,还在一个1KB阵列上跑了持续学习任务,准确率达到90%

这条新闻的价值,不只在“存储器又有新花样”。我更关心的是:它可能改变车端AI的系统分工。当内存本身能做矩阵乘加,智能车的AI路线就会出现更清晰的分岔——也正好对应我们这期主题:Tesla 的软件优先,与部分中国车企更偏硬件创新驱动的AI战略差异。

记忆墙到底卡在哪里:车端AI不是缺算力

先给结论:记忆墙的本质是“带宽/能耗被数据搬运吃掉”,而不是算术单元不够多。

以自动驾驶为例,车端要同时处理多路摄像头、雷达、超声、地图与状态信息,典型工作流是“感知—融合—预测—规划”。这些链路依赖大规模矩阵运算(尤其是卷积、注意力、MLP),但在传统Von Neumann架构里,矩阵乘加要把数据在DRAM/SRAM与MAC阵列之间反复搬运。

在实际系统里,问题会表现为三件事:

  • 延迟不稳定:数据通路拥堵时,推理时延出现抖动,直接影响车辆控制闭环。
  • 功耗结构失衡:算力芯片上“算”的能耗下降了,但“搬”的能耗占比上升,整车能耗管理更难。
  • 模型落地被迫妥协:为了满足实时性,工程上常把模型裁剪、量化、分层缓存,牺牲泛化与鲁棒性。

所以,谁能让“算”更靠近“存”,谁就能在车端AI的下一阶段拿到更好的系统上限。

bulk RRAM是什么:不靠细丝,靠“整层切换”

先把核心点说清楚:RRAM用“电阻值”存数据;把大量RRAM单元排成阵列后,可以用模拟电流天然完成矩阵乘加。

传统细丝型RRAM为什么难做计算

传统RRAM常用“细丝(filament)”机制:在介质里形成低电阻导电通道。

但它有几类硬伤,直接卡住“存内计算(in-memory computing)”:

  1. 成丝电压偏高:常需高电压成形,不友好于标准CMOS流程,集成难。
  2. 随机性与噪声:细丝生成过程天生随机,电阻值会漂移。把它映射到神经网络权重上,就等于权重在“自发抖动”,同一个输入隔天可能输出不同。
  3. 往往需要选择器晶体管(selector):为了隔离噪声与串扰,单元常配选择器,结果导致3D堆叠受限、密度上不去。

bulk RRAM的做法:让一整层材料切换

UC San Diego团队的思路很直接:把“随机细丝”这条路彻底放弃,改成让器件中的整个薄层在高阻/低阻之间切换。

这样带来两项系统级好处:

  • 免成形(form-free)或低成形成本:避免高电压成丝步骤,更利于与CMOS集成。
  • 不依赖选择器:更容易做高密度阵列和3D堆叠。

他们展示的指标有几个特别“工程化”:

  • 器件尺寸:40 nm
  • 3D堆叠层数:最多8层
  • 单元可编程电阻状态:64个电阻值(多级存储,对模拟权重更友好)
  • 电阻范围:兆欧级(MΩ),相比许多细丝型的千欧级(kΩ)更适合并行阵列操作(更利于控制电流、降低阵列互扰)

一句话概括:bulk RRAM是在为“阵列并行矩阵运算”专门做的器件形态。

从论文到落地:为何这次更像“车端AI的零件”

结论先行:这类bulk RRAM更贴近边缘端(edge)AI的真实需求——在本地学习、本地适应、低功耗长时运行。

研究团队把多个8层堆叠组装成1KB阵列,并在其上运行持续学习(continual learning)算法:用可穿戴传感器数据做动作分类(坐、走、爬楼梯等),并“边用边学”不断加入新数据,最终做到90%准确率,接近数字实现的神经网络。

对智能车而言,这个demo虽然小,但指向很清晰:

  • 车端系统需要处理分布漂移(城市、路况、光照、车况变化)。
  • 许多能力需要“在线适配”,但又不能把数据频繁上云(成本、隐私、时延)。
  • 传统车端推理强、训练弱;而“在存内计算+多级电阻权重”可能让“轻量训练/微调”变得更现实。

如果把它放进“人工智能在半导体与芯片设计”这条叙事里,我的判断是:**存内计算不是替代GPU/SoC,而是把一部分最耗带宽的算子(矩阵乘加)下沉到存储阵列,用系统设计换取能效与实时性。**这会逼着芯片验证、EDA建模、良率优化全链路跟着升级。

Tesla vs 中国车企:AI战略差异会被内存技术放大

先说结论:**Tesla的优势在软件闭环与数据体系;而硬件型创新(比如RRAM、3D存储、专用加速阵列)更可能成为部分中国车企“弯道加速”的杠杆。**两者不是谁对谁错,而是路径不同。

Tesla:软件优先,靠数据与迭代吃满硬件

Tesla长期以来更像“用软件把通用硬件榨干”的路线:

  • 强调端到端、数据驱动训练、快速迭代
  • 通过车队数据闭环提升模型能力
  • 硬件层面会做自研(如FSD芯片),但核心竞争叙事仍是软件与规模化部署

在这个框架里,记忆墙通常通过工程方式缓解:算子融合、量化、编译优化、缓存策略、模型结构迭代。

中国车企:更愿意押注“系统级硬件创新”

不少中国车企与供应链的组合拳更“硬件友好”:

  • 更积极尝试多传感器融合与多域控制,天然需要更高的并行度
  • 供应链能更快导入新型存储/封装/加速器思路(HBM替代、Chiplet、3D堆叠、近存计算)
  • 在成本与能耗受限的车型上,硬件能效提升往往比纯软件优化更“立竿见影”

如果bulk RRAM成熟,它带来的不是“更快的单次推理”,而是三类战略级改变:

  1. 能效优势可直接换续航:车端AI功耗下降,热设计压力降低。
  2. 本地学习更可行:对个体驾驶风格、轮胎磨损、传感器偏移做轻量自适应。
  3. 架构分工变化:SoC不必承担所有矩阵乘加,存储阵列成为“第二计算平面”。

换句话说:Tesla擅长把“软件做成产品”;而硬件突破让一些中国玩家有机会把“硬件做成差异化”。谁能更快把两者合成一套工程可量产的体系,谁就赢。

真正的难点:高温数据保持与量产工程

bulk RRAM看起来很美,但要进车规,我认为至少要过三道关。

1) 高温保持(retention)与车规环境

文章里提到:该器件在室温可保持多年,接近Flash。但来自Sandia国家实验室的研究者Albert Talin指出关键疑问:在更高温度(更接近计算机/车载工作温区)下的保持性仍不确定。

车规环境常见挑战包括:

  • 长时间高温(舱内、引擎舱附近、封装热点)
  • 温度循环导致材料应力与漂移
  • 震动与电磁干扰对模拟阵列读写稳定性的影响

2) 模拟计算的校准与容错

存内计算往往是模拟域完成乘加,现实里要面对:噪声、漂移、器件差异。

工程上需要配套:

  • 校准(calibration)与在线补偿
  • 误差感知训练(training-aware error)
  • 冗余与容错映射(比如把关键权重复制到多个单元)

这恰好把“芯片设计验证、制程优化、良率提升”推到台前:你得在EDA阶段就把器件统计分布建模进去,否则系统指标会漂。

3) 与CMOS、3D堆叠、封装的协同

8层堆叠只是开始。要走向更大阵列、更高良率,需要解决:

  • 3D互连与寄生参数对阵列精度的影响
  • 写入脉冲一致性与供电完整性
  • 测试(DFT)与可测性:多级电阻状态的测试成本会显著高于SRAM

我个人的观点是:存储新器件能否上车,最后拼的不是单点指标,而是“系统可制造性”。

给产业团队的可执行建议:从现在就能做什么

如果你在做智能汽车、边缘AI芯片、或半导体工艺/EDA,我建议把bulk RRAM当作“中期变量”,现在就开始三件事:

  1. 把“数据搬运成本”量化进指标体系

    • 不只看TOPS/W,也看每帧(或每秒)外存访问量、片上带宽占用与热密度。
  2. 建立面向存内计算的模型与算子筛选

    • 优先评估矩阵乘加密集的模块(感知主干、BEV特征聚合、部分注意力层)。
    • 先从小阵列、低精度、容错更强的子网络开始,而不是一口气替换整网。
  3. 让芯片设计与算法团队一起做“误差预算”

    • 先定义可接受的推理误差、漂移阈值,再倒推器件参数与校准频率。
    • 把器件漂移当作“系统噪声源”纳入仿真,这会显著减少后期返工。

一句很现实的话:谁先把“新器件的不完美”当作设计输入,谁就更可能把它做成量产能力。

结尾:记忆墙是下一场竞争的主战场

bulk RRAM把一个趋势说得更直白:**AI系统的瓶颈正在从“算力不足”转向“数据移动过贵”。**当计算开始向内存迁移,边缘端AI(尤其是车端)会获得更好的能效与实时性,也会打开“本地学习/自适应”的想象空间。

对我们的系列主题“人工智能在半导体与芯片设计”而言,这类进展意味着:芯片设计不再只是堆算力,验证与工艺优化也不再只盯频率和面积,而要把器件统计特性、3D集成、系统级误差容忍一起纳入。

接下来最值得追的不是“能不能跑通demo”,而是:**在高温、长寿命、可制造的前提下,存内计算能把车端AI的成本/能耗曲线压到什么程度?**当这个答案逐步清晰,Tesla与中国车企的AI路线差异,也会被放大得更明显。