GPT-4o语音模式部分开放,秋季覆盖所有付费用户

seekdeep2年前AI资讯665

继此前 OpenAI 方面在今年 5 月发布多模态大模型 GPT-4o,原计划今年 6 月开放语音模式的测试,随后以 " 需要改进模型检测和拒绝某些内容的能力 " 为由推迟后。当地时间 7 月 30 日官方已向部分 ChatGPT Plus 订阅用户开放基于 GPT-4o 的高级语音模式(Advanced Voice Mode)测试,并宣布将在今年秋季逐步扩展至所有 ChatGPT Plus 用户。



据悉,ChatGPT 此前的语音模式是基于转录、大语言模型和文生语音 3 个独立模型来实现的语音功能。公开信息显示,GPT-3.5 的平均延迟为 2.8 秒、GPT-4 为 5.4 秒,而 GPT-4o 则能够以平均 320 毫秒的速度回应音频输入,与人类在典型对话中的反应时间相似。


对此 OpenAI 首席技术官 Muri Murati 表示," 在 GPT-4o 中,我们训练了跨文本、视觉和音频的端到端全新统一模型,这意味着所有输入和输出都由同一个神经网络处理 "。


据 OpenAI 方面透露,高级语音模式除了可以提供更自然的实时对话、允许用户随时打断之外,还能够感知或响应用户的情绪语调,包括悲伤、兴奋等。但需要注意的是,该模式目前设置了 Juniper、Breeze、Cove、Ember4 种预设语音,对此 OpenAI 发言人 Lindsay McCallum 曾表示,"ChatGPT 不能冒用他人的声音,包括个人和公众人物的声音,并且会阻止与这些预设声音之一不同的输出 "。


日前 OpenAI 方面还解释了高级语音模式仅向部分用户开放的原因,因此通过逐步推出,其可以密切监控用户的使用情况,并根据反馈不断改进模型的能力和安全性。需要注意的是,这部分用户将在 ChatGPT 应用程序中收到提醒,并收到一封有关如何使用高级语音模式的说明邮件。


相关文章

AI是否会取代新闻媒体的记者?

AI是否会取代记者?这是近年来媒体行业最热门的话题之一。在近日的一场行业论坛中,四位资深媒体人齐聚一堂,就AI技术对媒体行业的冲击与机遇展开了深入讨论。中国记协原书记处书记张百新在会上指出,AI技术正...

医院难以验证GPT-AI完成的临床摘要

尽管很多医院热衷于投入人力物力开发GPT-AI"医生助手"或医用聊天机器人,但在真实环境中验证GPT-AI“助手”过程中,医院管理者和医生感觉"有点混乱",并没...

盛名之下的ChatGPT,何以使用率偏低?

据新华社日前报道,一项由路透社新闻研究所发布的在线调查结果显示,ChatGPT已是目前使用最为广泛的生成式人工智能工具,不过总体上生成式人工智能工具的频繁使用率仍偏低。研究人员对英国、美国、阿根廷、丹...

争夺“中国ChatGPT”心智定位,零一万物首次出新To C 李开复再出马!

李开复表示,大模型推理成本的下降会推动中国AI大模型进入”落地为王”的阶段,今年会迎来“大模型应用爆发元年”。他同时预测,明年下半年,随着大模型推理成本的大幅度下降,人们将迎来大模型普惠应用的井喷期。...

AI视频生成迎来“GPT时刻”,Sora火爆全球

继Runway、Pika、字节PixelDance、万兴“天幕”发布,2月16日凌晨,“王炸”模型Sora横空出世,AI视频生成迎来“GPT时刻”。在Open AI公布的48个样片中,Sora展现出令...

未来专家将有“分身术”,元宇宙医学数字人GPT在闵行亮相!

专家少,患者多,如何解决专家的稀缺性问题?4月10日,上海市闵行区医学会元宇宙医学专业委员会举行成立大会。会上,全球领先的元宇宙医学数字人GPT——BAIMGPT1.0正式亮相。据悉,BAIMGPT1...