DeepSeek新一代模型DeepSeek-V3.1引发资本市场关注

国产大模型企业DeepSeek近日宣布,其新一代模型DeepSeek-V3.1采用了UE8M0 FP8 Scale参数精度,这一精度标准是针对即将发布的下一代国产芯片设计。消息一出,资本市场迅速反应,寒武纪等芯片类上市企业股价集体拉升。

FP8精度标准及其优势

在AI训练与推理过程中,降低数值精度以提升计算效率是常见的技术路径。摩尔线程AI Infra总监陈志向《科创板日报》记者表示,从FP32(32位浮点数)过渡到FP16(16位浮点数)混合精度,再进一步压缩至FP8(8位浮点数),直接优势是算力效率翻倍,同时降低训练和推理过程中网络带宽的通信量。例如,原本传输一个FP32数值需4字节,现在FP8仅需要1字节,这使得在相同功耗下,AI芯片可训练更大的模型或缩短训练时间。

不过,FP8并非没有局限性。使用低精度训练推理虽然速度快,但也容易因数值范围太小导致计算出错。不同计算对精度要求不同,业内通常采用“混合精度训练”,根据计算类型动态选择不同的精度,兼顾效率与准确。

DeepSeek能否推动新标准

DeepSeek-V3.1使用UE8M0 FP8 Scale的参数精度,被视为国产AI芯片即将迈入新阶段的信号。尽管资本市场反应热烈,产业界人士态度更为审慎。业内人士认为,FP8代表了算力优化的正确方向,但也需要关注实际落地效果。

陈志认为,大模型对精度的容忍度越来越高,从FP32到FP16,再到FP8,是整个行业逐步验证过的路径。DeepSeek这次验证了FP8在大规模模型上的可行性,未来在FP8这一标准乃至更高精度上去做研究或者做训练也是一个很重要的方向。

这一趋势也意味着,国产算力生态需要同步升级,包括芯片、框架、算力平台到应用层的闭环适配。陈志表示,摩尔线程已提前布局FP8研究,既是技术储备,也是为了在生态调整中占据主动。

大模型训练推理的核心瓶颈不仅是算力规模,还包括能耗、稳定性和集群利用。国内万卡规模集群已有部署,但还要向大智算集群演进,解决效率与容错问题,确保集群可靠性。提高单卡效率与集群调度优化同样关键。