继此前OpenAI方面在今年5月发布多模态大模型GPT-4o,原计划今年6月开放语音模式的测试,随后以“需要改进模型检测和拒绝某些内容的能力”为由推迟后。当地时间7月30日官方已向部分ChatGPT Plus订阅用户开放基于GPT-4o的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有ChatGPT Plus用户。
据悉,ChatGPT此前的语音模式是基于转录、大语言模型和文生语音3个独立模型来实现的语音功能。公开信息显示,GPT-3.5的平均延迟为2.8秒、GPT-4为5.4秒,而GPT-4o则能够以平均320毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。
对此OpenAI首席技术官Muri Murati表示,“在GPT-4o中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理”。
据OpenAI方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了Juniper、Breeze、Cove、Ember4种预设语音,对此OpenAI发言人Lindsay McCallum曾表示,“ChatGPT不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出”。
日前OpenAI方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在ChatGPT应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。
【以上内容转自“三易生活网”,不代表本网站观点。如需转载请取得三易生活网许可,如有侵权请联系删除。】
延伸阅读:
- 讯飞星火V4.0即将发布,部分功能超越GPT-4o
- 极光GPTBots 新版本发布,支持OpenAI GPT-4o-128k 最新模型版本
未经允许不得转载:零时古怪 - 中国第一时事资讯综合门户 » GPT-4o语音模式部分开放,秋季覆盖所有付费用户