3D堆叠推理芯片融资近10亿:汽车AI体验的“硬底座”

人工智能在半导体与芯片设计By 3L3C

算喵科技近10亿元融资押注3D堆叠推理芯片。本文从“存储墙”切入,解析其如何提升车端大模型时延与能效,重塑座舱与智驾体验。

3D ICAI推理芯片智能座舱智能驾驶国产半导体车端大模型软硬件协同
Share:

Featured image for 3D堆叠推理芯片融资近10亿:汽车AI体验的“硬底座”

3D堆叠推理芯片融资近10亿:汽车AI体验的“硬底座”

2026-02-13 这条融资新闻很“芯片圈”,但我更关心它对车主意味着什么:当座舱里语音助手不再卡顿、导航能边开边算、城市NOA在拥堵路口也不“思考过久”,背后往往不是多写几行代码,而是算力、带宽与功耗的平衡被重新改写了。

同一天,来自北京的 3D AI 推理芯片公司算喵科技(SUNMMIO)披露完成两轮融资,合计接近人民币 10 亿元,目标是推进100%国产化的 3D 推理芯片研发与量产。新闻里最抓人的词是“打破存储墙(memory wall)”:这恰好击中智能汽车的痛点——车端大模型推理不是“算不动”,而是“等数据太久”。

这篇文章把这条融资信息放进我们「人工智能在半导体与芯片设计」系列的脉络里,聊清楚三件事:3D 堆叠为什么对车端 AI 更敏感、它会怎样改变汽车软件与用户体验的实现方式、以及主机厂/一级供应商在 2026 年该怎么评估与落地。

这笔近10亿融资,真正押注的是“推理效率”

答案先说:资本看中的不是“又一家做 AI 芯片的公司”,而是**用 3D 结构把推理从“算力瓶颈”转移到“数据就近”**的路线,尤其适合车端这种对功耗、时延、稳定性都苛刻的场景。

据公开信息,算喵科技连续完成 Pre-A 与 Pre-A1 两轮融资,总额近 10 亿元人民币:

  • Pre-A:源码资本、石溪资本联合领投,联想创投等参与
  • Pre-A1:湘禾资本领投,国开资本、北京顺禧等国资背景投资方加入

资金用途直指两点:研发与量产“100%国产”的 3D AI 推理芯片。这对汽车产业链很现实:车规芯片不仅要算得快,还要供得稳、可控、可持续迭代。

更有意思的是团队背景:创始人王福泉参与过龙芯项目;此前在以太坊矿芯领域做过 JASMINER X4,据称在 40nm 工艺下做出过相对当时旗舰 GPU 更高的能效表现,并拿到单条产品线 8 亿元收入。你可以不喜欢“矿芯出身”,但不能忽视它对极致能效/成本/量产工程能力的训练。

3D堆叠与“存储墙”:为什么车端大模型特别吃这套

答案很直接:**车端推理的“体感卡顿”,往往来自内存带宽与数据搬运,而不是 MAC 单元不够多。**3D 堆叠把计算与存储拉近,能显著降低等待与搬运成本。

什么是“存储墙”,用车载场景解释更直观

大模型推理(无论是 Llama、Mixtral 还是车企自研座舱模型)有两个特点:

  1. 参数与 KV Cache 占用大:越长对话、越复杂多模态,缓存越大
  2. 访问模式频繁且分散:注意力、层归一化等会反复访问内存

传统架构里,计算阵列再强,数据从外部显存/内存搬运到计算单元的路上也会堵车,于是出现“算力闲置”。这就是典型的 memory wall。

对汽车用户体验来说,memory wall 会表现为:

  • 语音对话中间“停顿一拍”,尤其长对话/多轮指令
  • 多屏联动时 UI 资源加载不稳,动画掉帧
  • 智驾感知融合在复杂路口延迟上升,策略变“保守”

3D堆叠解决的不是“更猛”,而是“更近”

3D 堆叠(3D IC、3D stacking)核心价值在于:把存储与计算在物理距离上拉近,带来更高的带宽、更低的能耗与更小的时延。从系统角度看,这意味着同等功耗下能做更多推理 token,或同等延迟下跑更大的模型。

算喵披露其在研 A4 采用 3D TokenPU 架构,预硅仿真数据显示在 Llama、Mixtral 上推理吞吐可达 Nvidia H200 的 1.26x–2.19x(不同模型、batch/seq 设置会导致区间波动)。即使你把这个数据当作“上限参考”,它仍然指出一个方向:推理吞吐的竞争,正在从单纯堆算力转向“计算-存储协同”

对智能汽车来说,这类协同的含义更强:车规电源与散热受限,不能像数据中心那样“多插几张卡”。

从芯片到汽车软件:AI体验会怎么被改写

先给结论:**车端 AI 体验的差距,越来越像“硬件架构差距”,而不是“UI 文案差距”。**当推理时延与能耗下降,软件团队才有空间把体验做细、把交互做密。

1)座舱:从“能回答”到“能跟得上”

很多座舱大模型落地难点不在能力,而在节奏:

  • 车机要同时跑导航、音乐、电话、空调控制等实时任务
  • 大模型推理带来 CPU/GPU/NPU 与内存争用

3D 推理芯片若能把 token 生成速度稳定在更高水平,体验会发生质变:

  • 语音助手更像对话而非问答:不必用“分段输出”掩盖延迟
  • 多意图指令更可靠:一次说“导航回家+空调 23 度+播放歌单”不容易丢步骤
  • 多模态更敢开:车内摄像头手势/视线、语音与触控融合,不再怕算力抖动

一句话:延迟越低,交互就越自然;自然度越高,用户越愿意用。

2)智驾:算得快不如算得稳,稳定性来自带宽与功耗

智能驾驶的推理链路更“硬”:相机/雷达数据吞吐大,时延预算紧,而且需要长时间持续运行。3D 堆叠带来的优势通常体现在:

  • 单位功耗带宽更高:同样电耗下,传更多关键特征
  • 更好的热稳定性空间:功耗下降=降频风险降低
  • 端到端/大模型融合更现实:感知-预测-规划更可能在车端闭环

这会直接影响“体感安全”:比如拥堵切入、无保护左转、施工路段识别等场景里,系统不因算力抖动而突然变保守。

3)“国产化”对体验的影响:不是口号,是迭代速度

新闻强调“100%国内生产的 3D 推理芯片”。对车企而言,这通常带来三个实际收益:

  1. 供应链韧性:跨周期供货与备货更可控
  2. 定制化空间:针对座舱/智驾工作负载做指令与内存层级优化
  3. 联合调优效率:软硬件 co-design 更容易落地

而软硬件协同的本质,就是我们这个系列一直在讲的:AI 不只在算法里,也在芯片设计与验证里。

主机厂/一级供应商:2026年评估3D推理芯片的落地清单

答案先给:别只看“峰值 TOPS”。要用车端真实负载去问:吞吐、时延、功耗、热、可靠性、工具链,一个都不能少。

评估指标:把“可用算力”从 PPT 里拎出来

我建议用这组问题做尽调/POC:

  1. 延迟指标:在 seq_len=2k/4k/8k 下,首 token 与每 token 时延分别是多少?是否抖动?
  2. 长对话稳定性:KV cache 增长后,吞吐衰减曲线如何?是否触发频繁换页/带宽瓶颈?
  3. 能耗与散热:在座舱/域控的真实散热条件下,持续 30 min 推理是否降频?
  4. 多任务并发:导航+语音+多屏渲染并发时,QoS 如何保证?是否有硬件级隔离/优先级机制?
  5. 工具链与模型适配:对主流 Transformer、稀疏 MoE、量化(INT8/FP8/混合)支持到什么程度?

落地路径:先从“体验最敏感”的两类功能切入

更稳的路线通常是:

  • 先座舱后智驾:座舱推理容错更高,能快速验证成本与体验收益
  • 先小模型/蒸馏模型后大模型:把延迟和稳定性做扎实,再逐步放大参数量

具体到功能,我更看好两类“立竿见影”的点:

  • 车端离线语音与知识问答:地下车库、偏远路段也能用;隐私更可控
  • 实时场景理解:把“我看见了什么”变成自然语言反馈,提升信任感

风险提醒:3D IC 的工程难度不在架构图上

立场明确一点:3D 堆叠是硬核工程,难点包括良率、热耦合、封装一致性、长期可靠性。对车规更要额外关注:

  • 温度循环与振动工况下的可靠性数据
  • 量产一致性(尤其跨批次)
  • 软件栈长期维护能力(编译器/算子库/驱动)

所以,融资额能说明决心,但车企选型要看工程数据与路线图

写在最后:硬件创新,决定AI体验“天花板”

算喵科技接近 10 亿元的融资,表面上是 3D 推理芯片的资本故事,本质上是一个更大的信号:车端 AI 体验的竞争,正在向“谁能更高效地把数据喂给计算”倾斜。当存储墙被削薄,座舱与智驾的软件团队才有余裕把交互做得更像人、把决策做得更像老司机。

我们在「人工智能在半导体与芯片设计」系列里反复强调软硬件协同,原因很简单:**模型能力的提升是上半场,工程化与量产才是下半场。**2026 年会看到更多国产推理芯片把“能跑”推进到“好用、耐用、可控”。

接下来你可以思考一个更现实的问题:当车端推理的成本与功耗进一步下降,你的产品规划里,哪些“原本只能上云”的 AI 体验,应该迁回车端去做?