OpenAI正全面强化音频人工智能能力,为推出首款以语音为核心的个人AI硬件设备铺路。
一、音频AI模型研发进展
现有支撑语音版ChatGPT的音频模型与文本交互模型分属不同架构,在应答准确率、响应速度上均落后于文本模型。过去两个月,OpenAI整合工程、产品和研究团队,集中攻克音频模型短板。新架构下的音频模型已能生成更自然、富情感的语音回应,具备与人类实时对话、应对打断的能力,计划2026年第一季度正式发布。
二、首款硬件设备规划
核心功能:以音频交互为核心,强调“说话而非看屏幕”的自然交互方式,避免用户沉迷。
硬件形态:首款设备为无屏幕设计,后续规划产品线包括智能眼镜、无屏幕智能音箱等。
产品定位:以“伴随式助手”形态存在,主动理解环境和用户需求,在获得授权后通过音频(及视频)持续提供帮助。
三、团队与布局
组建专门团队推进音频AI战略:由语音研究员昆丹·库马尔负责整体方向,本·纽豪斯重构音频底层架构,多模态ChatGPT产品经理杰基·香农参与其中。
2025年初斥资近65亿美元收购乔尼·艾维联合创办的io,同步推进供应链、工业设计与模型研发等多条工作线。
四、面临的挑战
多数ChatGPT用户尚未养成语音交互习惯,原因包括音频模型质量不足或未意识到该功能存在。推出音频优先的AI设备前,需先培养用户通过语音与AI互动的习惯。
OpenAI希望通过音频模型优化与硬件布局,推动AI交互向更贴近人类本能的语音方式演进,打造“随时陪伴在身边”的AI助手。