GPT-4o语音模式部分开放,秋季覆盖所有付费用户

seekdeep1年前AI资讯558

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。



据悉,ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示,GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。


对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。


据 OpenAI 方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音,对此 OpenAI 发言人 Lindsay McCallum 曾表示,"ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出 "。


日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。


相关文章

性能跃升超想象,算力足可达AGI,奥特曼专访自曝全新GPT-5细节!

性能就是模型的一切!Altman首次公开曝料:GPT-5将会有史诗级提升,小看它的公司都会被碾压。而未来,AI将成为推动文明发展的核心动力。外媒就又曝料了,Altman首次公开表示:GPT-5提升将非...

高考报考GPT,百年育才发布会圆满落幕

2024年4月2日9:30,百年育才高考报考GPT正式发布。百年育才创始人金泰雄先生隆重推出了这款AI产品,以其创新性和出色的性能引起了广泛关注,通过人机对话完成高考志愿填报,体验科技的力量。发布会现...

美国专利商标局驳回了OpenAI申请"GPT"商标的尝试

美国专利商标局(U.S. Patent and Trademark Office)驳回了 OpenAI 申请"GPT"商标的尝试,裁定该词"仅仅是描述性的",因...

Meta等让LLM分饰三角自评自进化:4轮暴训,Llama 7B击败GPT-4!

Meta、UC伯克利、NYU共同提出元奖励语言模型,给「超级对齐」指条明路:让AI自己当裁判,自我改进对齐,效果秒杀自我奖励模型。LLM对数据的大量消耗,不仅体现在预训练语料上,还体现在RLHF、DP...

微软Copilot全面升级OpenAI GPT-4 Turbo模型,免费用户同样享受!

在经过一系列工作之后,微软现已针对 Copilot 用户群全面升级为 OpenAI 最先进的 GPT-4 Turbo 模型。IT之家提醒,CopilotPro 用户如果不习惯的话还可以切换回标准 GP...

Agent不会复杂任务规划,GPT-4/Gemini大翻车做攻略成功率≈0%!

最近,复旦、俄亥俄州立大学、Meta和宾夕法尼亚州立大学的研究者发现,GPT-4 Agent规划旅行只有0.6%成功率!离在人类复杂环境中做出规划,智能体还任重道远。AI智能体,是目前学界炙手可热的前...