Groq完成7.5亿美元融资,估值达69亿美元,成为AI芯片领域重要竞争者

AI芯片初创公司Groq在最新一轮融资中筹集了7.5亿美元,公司估值约为69亿美元。Groq是英伟达(NVDA.US)的主要竞争对手之一,在AI芯片领域市场规模仅次于博通和AMD。

此前7月的融资传闻中,Groq的融资额约为6亿美元,估值接近60亿美元。而最新的融资数据显示,Groq的估值在短短一年内翻了两倍多。

Groq专注于向全球数据中心和企业平台销售AI芯片集群,与英伟达的数据中心业务类似。PitchBook的预测数据显示,Groq今年迄今已累计融资超过30亿美元,融资规模堪比AI超级独角兽Anthropic。

Groq的技术路线和产品特点

Groq开发的芯片被称为LPU(语言处理单元),专为极速高效率运行AI大模型而优化的专用高性能推理型计算机。LPU是为推理场景定制的AI ASIC,与博通AI ASIC和谷歌TPU属于同类AI芯片技术路线。

Groq的产品面向开发者和企业,既可作为云计算算力服务提供,也可作为本地部署的硬件集群提供。Groq的LPU产品在成本显著低于核心替代方案的情况下,能够保持或提升AI大模型推理运行效率。

Groq的创始人Jonathan Ross曾在谷歌芯片开发部门从事TPU芯片的完整开发。谷歌TPU算力集群已经成长为给谷歌云平台Google Cloud的AI训练/推理算力服务提供核心动力的硬件体系。

谷歌近日披露了Ironwood TPU(TPU v6)的最新细节,展现出令人瞩目的性能提升。与TPU v5p相比,Ironwood的峰值FLOPS性能提升10倍,功效比提升5.6倍,与谷歌2022年推出的TPU v4相比,单芯片算力提升超过16倍。

性能对比 谷歌Ironwood TPU 英伟达B200/300 GPU
TFLOPS/瓦功效比 4.2 4.5

摩根大通评论称,这一性能数据突出表明,先进AI的专用AI ASIC芯片正快速缩小与处于市场领先地位AI GPU的性能差距,推动超大规模云计算服务商加大对于更具性价比的定制化ASIC项目的投资。

Groq表示,目前其为超过200万名开发者的AI应用提供算力集群支持,而在该公司一年前接受TechCrunch采访时,这一数字仅仅为大约35万名开发者。

Groq的新一轮融资情况

Groq的新一轮融资由投资公司Disruptive领投,全球资管巨头BlackRock,以及Neuberger Berman、Deutsche Telekom Capital Partners等参投。还包括三星(Samsung)、思科(Cisco)、D1和Altimeter在内的现有投资者也参与了本轮融资。

Groq的LPU是为推理(尤其是大语言模型LLM推理)而生的专用加速器,核心架构是Groq自主开发的TSP(Tensor Streaming Processor,张量流式处理器)。LPU芯片采用大容量片上SRAM(约220MB),超高片上带宽(官方资料示例至80TB/s),并以编译器在时间与空间上显式调度算子与数据流,几乎不依赖硬件中的“反应式”部件(如缓存/仲裁器/回放机制)。

在低/零批量LLM推理里,LPU提供相较AI GPU集群更低的时延、更稳定的吞吐与潜在更高的能效/交付效率。但在大模型训练、动态工作负载与生态完整度方面,聚焦于通用的GPU集群仍具系统性优势。

尤其在batch很小(甚至batch=1)的LLM场景,LPU不需要“堆batch才跑得满”,单位芯片的tokens/s更高、调度开销更低,能满足交互式产品对“快回话”的要求。Groq的LPU在大容量片上SRAM直接供算,官方资料展示片上带宽可达80TB/s,而GPU需频繁访问片外HBM,因此LPU大幅减少“算存”往返,能够提高AI大模型运行效率并具备极高的能效比。LPU确定性执行带来更平滑的功耗曲线,配合精简数据路径,推理每token的能耗更低,有报道称LPU在等效推理上功耗约为常见GPU的三分之一。

因此,AI ASIC虽然无法全面大规模取代英伟达,但是市场份额势必将愈发扩张,而不是当前英伟达AI GPU一家独大局面。在可标准化的主流推理与部分训练(尤其是持续性长尾训练/微调)上,定制化AI ASIC的“单位吞吐成本/能耗”显著优于纯GPU方案;而在快速探索、前沿大模型训练与多模态新算子试错上,英伟达AI GPU仍是主力。因此当前在AI工程实践中,科技巨头们愈发倾向采用“ASIC扛常态化、GPU扛探索峰值/新模型开发”的混合架构来最小化TCO。