OpenAI优化音频AI模型,准备推出语音驱动型个人设备

OpenAI正在积极优化其音频人工智能模型,以准备推出一款语音驱动型个人设备。据The Information于1月1日的报道,该公司在过去两个月内集中了工程、产品和研究力量,致力于攻克音频交互的技术难题,目标是打造一款能够通过自然语音指令操作的消费级设备。

公司内部研究人员指出,目前ChatGPT的语音模型在准确性和响应速度上均落后于其文本模型,且两者使用的底层架构并不相同。

新语音模型特性及发布计划

据报道,新语音模型将具备更自然的情感表达能力和实时对话功能,包括处理对话打断的能力,这是现有模型无法实现的关键特性。该模型计划在2026年第一季度发布。

OpenAI还计划推出一系列无屏设备,包括智能眼镜和智能音箱,将这些设备定位为用户的“协作伴侣”而非单纯的应用入口。

用户习惯培养成关键挑战

OpenAI面临的主要挑战在于改变用户的使用习惯。多数ChatGPT用户尚未养成语音交互习惯,原因包括音频模型质量不足或用户未意识到该功能存在。要推出以音频为核心的AI设备,公司需先培养用户通过语音与AI产品互动的习惯。

此前报道显示,OpenAI已在2025年初斥资近65亿美元收购乔尼·艾夫联合创办的io,并同步推进供应链、工业设计与模型研发等多条工作线。首款设备预计至少还需一年时间才能面世。

这一时间表意味着OpenAI需要在产品发布前,通过改进现有ChatGPT语音功能来积累用户基础,并验证音频交互在日常场景中的实用性。

公司 股票代码
谷歌 GOOGL.US
亚马逊 AMZN.US
Meta META.US
苹果 AAPL.US

本文转载自:华尔街见闻;作者:鲍奕龙;FOREXBNB编辑:陈筱亦。