GPT-4o语音模式部分开放,秋季覆盖所有付费用户

seekdeep2年前AI资讯734

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。



据悉,ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示,GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。


对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。


据 OpenAI 方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音,对此 OpenAI 发言人 Lindsay McCallum 曾表示,"ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出 "。


日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。


相关文章

最大参数超 1400 亿,2 名核心团队成员却离职,Llama 3 被爆 7 月解禁剑指 GPT-4。

Meta 将推出 Llama 3 大模型,性能超 Llama 2。【导读】外媒称,Llama 3 或将在 7 月发布,并解除了一些限制能回答更棘手的问题,而且对多重语境理解更加到位,至于是否有多模态能...

智启未来生活 AI赋能家电

智启未来生活 AI赋能家电

智能互联让生活更精彩  3月21日,在“未来家 让生活充满AI——2025AWE高峰论坛”上,中国家用电器协会执行理事长姜风指出,人工智能正以前所未有的速度在各行业落地生根,为人们生活和产业格局带来深...

GPT商店涌入AI女友机器人,审核和盈利前景尚待明确

·点击聊天机器人“虚拟甜心”,用户将收到诸如“你的梦想女孩是什么样子?”“与我分享你最黑暗的秘密”之类的启动提示。·在经济环境严峻的情况下,制造聊天机器人的公司最近却一直在以惊人的速度筹集资金。但仍不...

OpenAI总裁:人机合作还得加强!ChatGPT击败50名人类医生!疾病诊断准确率达90%。

OpenAI总裁:人机合作还得加强!ChatGPT击败50名人类医生!疾病诊断准确率达90%。

用ChatGPT诊断疾病,准确率已经超过了人类医生?!斯坦福大学等机构进行了一轮随机临床试验,结果人类医生单独做出诊断的准确率为74%。在ChatGPT的辅助之下,这一数字提升到了76%。有意思的是,...

国产大模型拿下总分第一,GPT-4 Turbo首次被击败!

OpenAI长期霸榜的SuperCLUE(中文大模型测评基准),终于被国产大模型反将一军。事情是这样的。自打SuperCLUE问世以来,成绩第一的选手基本上要么是GPT-4,要么是GPT-4 Turb...

华尔街将迎投资新时代?小摩AI投顾IndexGPT正式上线 !

据媒体报道,摩根大通已经推出了一款名为IndexGPT的产品,该服务将依赖颠覆性的人工智能(AI)为客户提供投资建议。一年之前,摩根大通为IndexGPT申请了产品商标。根据文件,IndexGPT将利...