DeepSeek新一代模型DeepSeek-V3.1引發資本市場關注
國產大模型企業DeepSeek近日宣佈,其新一代模型DeepSeek-V3.1採用了UE8M0 FP8 Scale參數精度,這一精度標準是針對即將發佈的下一代國產芯片設計。消息一出,資本市場迅速反應,寒武紀等芯片類上市企業股價集體拉昇。
FP8精度標準及其優勢
在AI訓練與推理過程中,降低數值精度以提升計算效率是常見的技術路徑。摩爾線程AI Infra總監陳志向《科創板日報》記者表示,從FP32(32位浮點數)過渡到FP16(16位浮點數)混合精度,再進一步壓縮至FP8(8位浮點數),直接優勢是算力效率翻倍,同時降低訓練和推理過程中網絡帶寬的通信量。例如,原本傳輸一個FP32數值需4字節,現在FP8僅需要1字節,這使得在相同功耗下,AI芯片可訓練更大的模型或縮短訓練時間。
不過,FP8並非沒有侷限性。使用低精度訓練推理雖然速度快,但也容易因數值範圍太小導致計算出錯。不同計算對精度要求不同,業內通常採用“混合精度訓練”,根據計算類型動態選擇不同的精度,兼顧效率與準確。
DeepSeek能否推動新標準
DeepSeek-V3.1使用UE8M0 FP8 Scale的參數精度,被視爲國產AI芯片即將邁入新階段的信號。儘管資本市場反應熱烈,產業界人士態度更爲審慎。業內人士認爲,FP8代表了算力優化的正確方向,但也需要關注實際落地效果。
陳志認爲,大模型對精度的容忍度越來越高,從FP32到FP16,再到FP8,是整個行業逐步驗證過的路徑。DeepSeek這次驗證了FP8在大規模模型上的可行性,未來在FP8這一標準乃至更高精度上去做研究或者做訓練也是一個很重要的方向。
這一趨勢也意味着,國產算力生態需要同步升級,包括芯片、框架、算力平臺到應用層的閉環適配。陳志表示,摩爾線程已提前佈局FP8研究,既是技術儲備,也是爲了在生態調整中佔據主動。
大模型訓練推理的核心瓶頸不僅是算力規模,還包括能耗、穩定性和集羣利用。國內萬卡規模集羣已有部署,但還要向大智算集羣演進,解決效率與容錯問題,確保集羣可靠性。提高單卡效率與集羣調度優化同樣關鍵。