AI芯片领域迎来重大变革:特斯拉重启Dojo项目,Cerebras与OpenAI签订百亿美元协议

2025年伊始,AI芯片行业便传来两大重磅消息。埃隆·马斯克确认特斯拉重启Dojo 3超级计算机项目,目标成为全球最大的AI芯片厂商;同时,Cerebras Systems与OpenAI签订了价值超百亿美元、承诺交付750兆瓦算力的多年采购协议,该产能将在2028年前分批投入使用。这两条新闻使得“大芯片”技术路线再次受到关注。

两种大芯片的分野

AI芯片领域中的“大芯片”并非精确的技术术语,而是对两种不同设计的概括。一种是Cerebras的晶圆级单片集成,另一种是特斯拉Dojo这类介于单芯片与GPU集群之间的“晶圆级系统”。这种分野源于对“内存墙”和“互连瓶颈”的不同解决方案。

Cerebras WSE-3以其4万亿晶体管、90万个AI核心和44GB片上SRAM,提供了极致的集成密度和性能提升。其片上互联带宽达到214Pbps,是英伟达H100系统的3715倍;内存带宽高达21PB/s,是H100的880倍。这种设计在Llama 3.1 8B模型上跑出1800 token/s的生成速度,而H100仅为242 token/s。

特斯拉Dojo则采用晶圆级系统路线,D1芯片通过5×5阵列排列在载片上,利用台积电InFO封装技术实现高密度互连,让25颗芯片像单一处理器般协同工作。这种设计避免了单片晶圆的良率风险,同时缓解了多芯片系统的互联瓶颈,芯片间延迟仅100纳秒,远低于传统GPU集群的毫秒级。

特斯拉的务实转向

2025年8月,特斯拉解散Dojo超算团队,一度被视为自研训练芯片路线的终结。然而,短短半年后,Dojo项目重启,其背后逻辑发生根本性转变。马斯克透露,特斯拉将采用AI6或AI7芯片,目标转向“太空人工智能计算”。

特斯拉选择训练外采和推理自研,AI5芯片采用3nm制程,由台积电代工,预计2026年底量产,单颗性能接近英伟达Hopper级别,双芯片配置则可接近Blackwell架构。Dojo 3不再是对标GPU集群的通用训练平台,而是面向太空算力部署。

特斯拉已将Dojo 3芯片制造合同授予三星,芯片封装业务交由英特尔承接,这一供应链调整反映了台积电产能饱和无法为Dojo 3提供积极支持的现实,也暴露出特斯拉在争抢代工产能上的弱势。

Cerebras的精准卡位

Cerebras与OpenAI的百亿美元合作是在推理爆发前夜的一次精准卡位。OpenAI承诺到2028年从Cerebras购买高达750兆瓦的计算能力,交易金额超过100亿美元。这笔订单的关键在于OpenAI愿意为所谓的“超低延迟推理”支付溢价。

Cerebras的独特速度来自于将大量计算、内存和带宽集成在单个巨型芯片上,消除了传统硬件中减慢推理速度的瓶颈。这种架构优势能够在实际应用中转化为惊人的性能差距。Cerebras WSE-3在碳捕获模拟中跑出比H100快210倍的速度,在AI推理上实现20倍加速。

Cerebras的CS-3系统主打推理专用机,通过存算一体架构将推理延迟压到极致,同时简化软件栈。这种定位的精妙在于:推理市场的爆发才刚刚开始,生态锁定效应远弱于训练侧,而推理任务的多样性给专用架构留下了施展空间。

生态壁垒的裂痕与机会

AI芯片市场竞争激烈,AMD和英伟达的更新速度令人咋舌。Cerebras的应对策略是彻底错位竞争,主打推理专用机,而特斯拉则押注于先进封装之上。

在摩尔定律放缓、先进封装接力、AI场景碎片化的背景下,晶圆级集成这条技术路线正在以意想不到的方式重新定义“大”的边界。它们不是要复刻英伟达的成功,而是在AI算力版图的裂隙中,找到那些被通用方案忽视的价值洼地。

芯片型号 晶体管数量 AI核心数量 片上SRAM 片上互联带宽 内存带宽 生成速度(token/s)
Cerebras WSE-3 4万亿 90万个 44GB 214Pbps 21PB/s 1800
英伟达H100 - - - 0.058Pbps 0.024PB/s 242