AI训练正撞上“铜崖”:当GPU规模走向数百张,铜缆的功耗、体积与可靠性成瓶颈。射频/太赫兹波导互连或改写特斯拉与中国车企的AI基建策略。

AI数据中心的“铜崖”来了:特斯拉与中国车企AI基建分野
训练一个足够强的自动驾驶大模型,往往不差算法灵感,差的是“把GPU连起来”的能力。行业里有个越来越常见的说法:AI训练速度最终会被互连技术卡住。当单机从几十张GPU走向几百张GPU,机柜背后密密麻麻的铜缆不再只是“线材”,而是成本、功耗、散热、可靠性和交付周期的集合体。
这件事对汽车行业尤其敏感。特斯拉和中国主流智能车企都在押注端到端驾驶、世界模型、车端大模型与云端训练闭环。区别在于:有人把AI当“软件产品”,有人把AI当“工程系统”。而数据中心互连,从铜到光再到“射频/太赫兹波导”,正在把这种差异放大。
在“人工智能在通信与 5G/6G”这条技术主线上,数据中心互连其实是“内网的6G”:更短距离、更高带宽、更低时延、更强可靠性。它决定了AI算力能不能被真正用满。
训练大模型的两件事:Scale-out 与 Scale-up
结论先说:自动驾驶训练的瓶颈,越来越从“算力”转向“算力组织方式”。
数据中心训练AI主要有两种扩展方式:
- Scale-out(横向扩展):把更多服务器/计算节点连成集群,适合跨机柜、跨机房互联,通常用光纤与光互连,距离可达数百到数千米。
- Scale-up(纵向扩展):在一台“超级节点”里塞进更多GPU,让它们像“一个巨型GPU”一样协同工作,互连密度比scale-out高一个数量级,过去多用短距离铜缆(1–2米级)。
对自动驾驶来说,scale-up很关键:更大的batch、更频繁的参数同步、更高的GPU间带宽需求,能直接转化为训练吞吐与实验迭代速度。问题是——铜缆正在到极限。
铜缆为什么会“掉下悬崖”:皮肤效应与线束拥堵
结论先说:当链路速率逼近Tb/s级别,铜不再是“便宜可靠”,而会变成“更粗、更短、更热”。
铜在高频高速下会遇到典型物理问题:皮肤效应(skin effect)。频率越高,电流越集中在导体表面,等效电阻增大,损耗上升。结果很现实:
- 要更粗的线:截面积增大才能“挤出”足够有效导电层。
- 要更多功耗:为了维持信号质量,要更强的驱动、更复杂的均衡。
- 要更短的距离:速率越高,可用距离越短。
这就是一些工程师口中的“铜崖”(copper cliff):在某个速率/距离组合点之后,铜的成本和代价会突然变得不可接受。
更糟的是机柜现实:当GPU规模从72走向数百张(业界路线图中已出现到2027年单系统576 GPU的设想),线束空间、走线可维护性与风道/液冷布局都被逼到极限。
“铜的续命方案”:AEC与Retimer
结论先说:AEC能把铜再往前推一段,但它是在用功耗与复杂度换距离。
主动电缆(AEC)会在两端放置retimer芯片,负责时钟/数据信号重整与再发送,从而把铜的可用距离从“1–2米”延伸到“数米级”。这对从GPU到交换机、从单机到跨机柜的过渡非常实用。
但AEC并不改变“高频电在铜里走不远”的物理事实。它更像是给铜加了拐杖:走得更远,但更耗电、发热更大、故障点更多。
不走光纤,也不硬扛铜:RF/太赫兹“波导电缆”在中间开了一条路
结论先说:射频/太赫兹的“电缆”,试图拿到“像铜一样好用、比铜更细更远、比光更省电更好做”的组合。
近期出现的思路是:把数字比特转换成毫米波/太赫兹的调制信号,在一根更细、更柔韧的波导里传输,末端再还原为数字信号。直观理解:
- 铜:电信号在金属里跑
- 光:光信号在光纤里跑
- RF over waveguide(射频/太赫兹波导):高频电磁波在介质波导里“导引传播”
在公开信息里,这类方案给出的工程卖点非常明确:
- 距离:可做到约10–20米级别,足以覆盖多机柜scale-up连接
- 线缆体积:比同等级铜缆更细,线束拥堵压力显著下降
- 功耗:目标是比光互连更低(某些方案宣称约为光的1/3)
- 时延:可做到极低(某些宣称比光低到数量级差异)
更关键的是制造逻辑:毫米波/太赫兹前端芯片可在相对成熟的CMOS工艺上实现,波导也更接近“线缆产业链”而不是“精密光学装配”。
为什么这对“车企AI战略”不是小事
结论先说:互连技术改变的是“单位GPU产生多少有效训练”,它会反向塑造企业的AI组织形态。
自动驾驶的训练不是只看GPU数量。真正的指标是:
- GPU利用率(是否经常在等通信)
- 每瓦吞吐(电力配额与能耗成本)
- 训练作业稳定性(一次中断可能浪费数小时到数天)
- 扩容交付周期(从采购到上线的时间)
互连从铜转向“射频波导/更近端的光”,意味着同样预算下可获得更稳定、更密集、更易扩展的训练平台。这会直接影响车企在端到端模型上的迭代速度。
特斯拉 vs 中国车企:AI基础设施选择背后的三种分野
结论先说:特斯拉更像“软件公司建工厂”,中国车企更像“制造体系上AI”,互连与数据中心路线会走出不同的节奏。
下面是我观察到的三条差异线索(不是道德评判,而是组织现实):
1) 目标函数不同:端到端闭环 vs 多域协同
特斯拉长期强调数据闭环与端到端训练,倾向于把训练平台当作“产品流水线”:输入车端数据,输出模型版本,持续滚动。
不少中国车企则更常见“多供应链、多方案并行”:智驾、座舱、车控、云服务多条线同时推进,训练平台的“内部客户”更多,对资源隔离、稳定性、跨团队共享要求更高。
这会影响互连技术的落地策略:
- 特斯拉更可能为某个核心训练范式做深度定制(scale-up优先)
- 中国车企更可能采用“能快速交付、易运维、可分期演进”的组合(scale-out + 分阶段scale-up)
2) 工程偏好不同:极致自研 vs 生态协作
射频/太赫兹波导方案的机会点在于它更贴近传统线缆与连接器生态,能与既有制造体系对接。
- 特斯拉若认为互连是核心竞争力,可能走更强的自研/深度定制路径,把互连与散热、机柜、作业调度一起做系统优化。
- 中国车企更可能通过头部云/算力合作伙伴、服务器与网络厂商的参考架构来快速复制能力,然后在数据与应用层做差异化。
3) 成本结构不同:算力电力配额 vs 时间窗口成本
2025年末到2026年,国内外都在经历算力“扩容竞赛”,但约束不同:
- 在一些地区,电力与机房容量比GPU更稀缺
- 在另一些企业里,真正昂贵的是研发迭代的时间窗口:一代模型慢两个月,可能错过整车平台周期
射频/太赫兹波导如果能在功耗、线束密度、散热压力上带来实打实改善,就会变成“时间窗口”的放大器:更稳定、更少故障、更高利用率,等于更快迭代。
放到“通信与5G/6G”视角:数据中心互连正在复用移动通信的方法论
结论先说:数据中心互连的演进,越来越像一张“极短距的6G网”。
你会看到熟悉的通信工程要素被搬进机柜:
- 更高载波频率:从GHz走向毫米波/太赫兹
- 更复杂调制与均衡:追求更高频谱效率
- 更严格的链路预算:损耗、串扰、屏蔽、连接器一致性
- 更强调端到端可靠性:一次链路抖动可能导致训练作业崩溃
这也是为什么“AI用于网络优化、故障诊断、智能运维(AIOps)”会越来越重要:互连越复杂,越需要用AI做链路健康预测、拥塞定位、作业编排优化。
车企与供应链可以立刻做的三件事(可执行)
结论先说:别等到“铜崖”塌了才换路,先把测量体系与演进路径建起来。
-
把互连指标纳入AI研发KPI
- 除了GPU数量,固定跟踪:GPU利用率、all-reduce时延、作业中断率、训练吞吐(tokens/s或samples/s)、每瓦吞吐。
-
按“距离层级”规划互连路线图
- 机内/板内:短距铜仍有优势
- 机柜内/相邻机柜(10–20米):重点关注毫米波/太赫兹波导与更近端光的落地节奏
- 跨机柜/跨机房:光互连仍是主力
-
提前做运维与可靠性演练
- 训练作业最怕“非冗余第一跳”掉链子。对关键链路做冗余、热插拔流程、故障注入演练,比追逐单点峰值带宽更能提升有效产出。
结尾:AI战略的分水岭,往往藏在“线缆后面”
铜缆不会立刻消失,它仍然是成本最低、工程最熟的选择。但当GPU规模走向数百张、训练作业价值越来越高时,互连的功耗、体积、可靠性会从后台走到前台。这会迫使每一家做智能驾驶的公司回答同一个问题:你是在买算力,还是在买“可持续迭代速度”?
我更看好一种务实的路线:短距继续用铜,把铜用到极致;跨机柜坚持光;而在10–20米这个“scale-up新战场”,射频/太赫兹波导有机会成为下一代主流选项之一。对特斯拉来说,这可能是进一步放大数据闭环效率的杠杆;对中国车企来说,这可能是把多团队、多业务的训练平台从“能用”推到“高效稳定”的关键补课。
接下来一年值得关注的不是某条链路峰值带宽,而是:哪家车企能把互连、散热、调度、数据闭环做成同一个系统工程。那才是真正的AI战略差距。