Groq完成7.5億美元融資,估值達69億美元,成爲AI芯片領域重要競爭者

AI芯片初創公司Groq在最新一輪融資中籌集了7.5億美元,公司估值約爲69億美元。Groq是英偉達(NVDA.US)的主要競爭對手之一,在AI芯片領域市場規模僅次於博通和AMD。

此前7月的融資傳聞中,Groq的融資額約爲6億美元,估值接近60億美元。而最新的融資數據顯示,Groq的估值在短短一年內翻了兩倍多。

Groq專注於向全球數據中心和企業平臺銷售AI芯片集羣,與英偉達的數據中心業務類似。PitchBook的預測數據顯示,Groq今年迄今已累計融資超過30億美元,融資規模堪比AI超級獨角獸Anthropic。

Groq的技術路線和產品特點

Groq開發的芯片被稱爲LPU(語言處理單元),專爲極速高效率運行AI大模型而優化的專用高性能推理型計算機。LPU是爲推理場景定製的AI ASIC,與博通AI ASIC和谷歌TPU屬於同類AI芯片技術路線。

Groq的產品面向開發者和企業,既可作爲雲計算算力服務提供,也可作爲本地部署的硬件集羣提供。Groq的LPU產品在成本顯著低於核心替代方案的情況下,能夠保持或提升AI大模型推理運行效率。

Groq的創始人Jonathan Ross曾在谷歌芯片開發部門從事TPU芯片的完整開發。谷歌TPU算力集羣已經成長爲給谷歌雲平臺Google Cloud的AI訓練/推理算力服務提供核心動力的硬件體系。

谷歌近日披露了Ironwood TPU(TPU v6)的最新細節,展現出令人矚目的性能提升。與TPU v5p相比,Ironwood的峯值FLOPS性能提升10倍,功效比提升5.6倍,與谷歌2022年推出的TPU v4相比,單芯片算力提升超過16倍。

性能對比 谷歌Ironwood TPU 英偉達B200/300 GPU
TFLOPS/瓦功效比 4.2 4.5

摩根大通評論稱,這一性能數據突出表明,先進AI的專用AI ASIC芯片正快速縮小與處於市場領先地位AI GPU的性能差距,推動超大規模雲計算服務商加大對於更具性價比的定製化ASIC項目的投資。

Groq表示,目前其爲超過200萬名開發者的AI應用提供算力集羣支持,而在該公司一年前接受TechCrunch採訪時,這一數字僅僅爲大約35萬名開發者。

Groq的新一輪融資情況

Groq的新一輪融資由投資公司Disruptive領投,全球資管巨頭BlackRock,以及Neuberger Berman、Deutsche Telekom Capital Partners等參投。還包括三星(Samsung)、思科(Cisco)、D1和Altimeter在內的現有投資者也參與了本輪融資。

Groq的LPU是爲推理(尤其是大語言模型LLM推理)而生的專用加速器,核心架構是Groq自主開發的TSP(Tensor Streaming Processor,張量流式處理器)。LPU芯片採用大容量片上SRAM(約220MB),超高片上帶寬(官方資料示例至80TB/s),並以編譯器在時間與空間上顯式調度算子與數據流,幾乎不依賴硬件中的“反應式”部件(如緩存/仲裁器/回放機制)。

在低/零批量LLM推理裏,LPU提供相較AI GPU集羣更低的時延、更穩定的吞吐與潛在更高的能效/交付效率。但在大模型訓練、動態工作負載與生態完整度方面,聚焦於通用的GPU集羣仍具系統性優勢。

尤其在batch很小(甚至batch=1)的LLM場景,LPU不需要“堆batch才跑得滿”,單位芯片的tokens/s更高、調度開銷更低,能滿足交互式產品對“快回話”的要求。Groq的LPU在大容量片上SRAM直接供算,官方資料展示片上帶寬可達80TB/s,而GPU需頻繁訪問片外HBM,因此LPU大幅減少“算存”往返,能夠提高AI大模型運行效率並具備極高的能效比。LPU確定性執行帶來更平滑的功耗曲線,配合精簡數據路徑,推理每token的能耗更低,有報道稱LPU在等效推理上功耗約爲常見GPU的三分之一。

因此,AI ASIC雖然無法全面大規模取代英偉達,但是市場份額勢必將愈發擴張,而不是當前英偉達AI GPU一家獨大局面。在可標準化的主流推理與部分訓練(尤其是持續性長尾訓練/微調)上,定製化AI ASIC的“單位吞吐成本/能耗”顯著優於純GPU方案;而在快速探索、前沿大模型訓練與多模態新算子試錯上,英偉達AI GPU仍是主力。因此當前在AI工程實踐中,科技巨頭們愈發傾向採用“ASIC扛常態化、GPU扛探索峯值/新模型開發”的混合架構來最小化TCO。