GPT-4o语音模式部分开放,秋季覆盖所有付费用户

seekdeep2年前AI资讯899

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。



据悉,ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示,GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。


对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。


据 OpenAI 方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音,对此 OpenAI 发言人 Lindsay McCallum 曾表示,"ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出 "。


日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。


相关文章

​听听来自不同领域学者的看法,如何看待ChatGPT!

在ChatGPT横空出世一年后,《自然》杂志首次破格将ChatGPT这位“非人类”列为全球重大科学事件中的十位人物之一。对于社会而言,ChatGPT最大的贡献也许在于它不仅使人望见生成式AI巨大的发展...

OpenAI把它放到了机器人上,在GPT-4诞生1年后!

ChatGPT拥有了身体,机器人也有了灵魂。从OpenAI在去年3月14日拿出GPT-4后,已经过了整整一年。显然,在GPT-4诞生之后的这一年,一切都迭代得太快了,从GPT-4展现多模态能力,到千行...

84%收入来自近1000万名ChatGPT付费用户,机构预计一年创收34亿美元!OpenAI营收拆解!

近日,人工智能(AI)调研机构FutureSearch发布报告,对全球AI独角兽OpenAI的收入构成进行了拆解,提供了一个更清晰的收入结构图。FutureSearch的研究人员称,他们之所以要分析O...

程序员被骗1.8万元,GPT写的代码竟有后门

程序员被骗1.8万元,GPT写的代码竟有后门

随着AI大模型技术的不断进步,众多职业的工作效率得到了显著提升。例如,在编程领域,这些先进的AI工具不仅能够协助程序员编写代码,还能高效地解决程序中的BUG,成为开发者们不可或缺的助手。然而,近期发生...

普通人如何抓住AI机遇? AI眼镜或成下一个风口!

普通人如何抓住AI机遇? AI眼镜或成下一个风口!

智能眼镜市场或迎来新一轮增长,但关键在于AI模型的落地与技术突破。AI技术正在重新定义我们与世界的互动方式,智能眼镜或将成为这一变革的重要载体。AI眼镜:未来生活的新入口智能眼镜不仅仅是科技产品,更是...

GPT-5有望今年夏季发布,多模态能力预期提升,中国银河给予计算机行业推荐评级!

AI快讯,中国银河03月29日发布研报称:给予计算机行业推荐(维持)评级。近日,多家媒体公开消息称 GPT-5 预计将在今年夏季正式发布,目前仍处内测阶段。当前,最新版本 GPT-4 Turbo 已能...