AI视频生成迎来“GPT时刻”,Sora火爆全球

seekdeep1年前AI资讯427

继Runway、Pika、字节PixelDance、万兴“天幕”发布,2月16日凌晨,“王炸”模型Sora横空出世,AI视频生成迎来“GPT时刻”。


在Open AI公布的48个样片中,Sora展现出令人惊叹的视频生成效果,视频时长提升至1分钟,生成的角色表情逼真,还实现了多角度镜头切换与流畅分镜,可展现真实光影、运动和镜头移动效果。


据了解,Sora是一个扩散Transformer模型,通过采用Diffusion Transformer等技术处理不同持续时间、分辨率和比例的视频/图像,实现“世界模拟器”,达到理解真实世界的运动和物理能力。


对比Runway、Pika等玩家,Sora的特别之处在于,它能够理解和模拟真实世界,从而生成符合物理和运动学规律的复杂场景的超逼真视频。例如,当Sora学习人吃汉堡的视频时,它记住的不仅是吃汉堡这一“具体画面”,还有“咬了就会有痕迹”这个“物理规律”,让AI生成的视频更真实。


业内人士指出,世界模拟器是AI生成视频的一种方式,它的成功会带动视频生成赛道的发展,加速视频生成的创新和成熟。




面对AI视频生成领域的广阔前景,国内各厂商正加大投入,推动AI视频生成进入全新时代。字节跳动于去年11月发布PixelDance模型,不仅在视频时长上实现了突破,还可通过描述(纯文本)+首帧指导(图片)+尾帧指导(图片),生成包含复杂场景和动作的视频,用上一个视频片段尾帧为下一个视频头帧提供指导思路。


AIGC软件A股上市公司万兴科技(300624.SZ)于今年年初推出国内首个以音视频为核心的多媒体大模型万兴“天幕”。作为一家产品创新型公司,万兴科技很早就拥抱AIGC,是首批开通Azure OpenAI商用服务权限的国内企业,旗下Wondershare Filmora、万兴PDF、亿图图示等软件已进行AIGC化升级,并推出万兴播爆、万兴智演、Wondershare Kwicut等AIGC新品。


伴随Sora发布,作为音视频多媒体垂类大模型的开拓者,万兴“天幕”备受关注,但据了解,其与Sora在定位、能力、用户群等方面具有一定的差异化。定位上,万兴“天幕”是音视频多媒体创作垂类大模型,由视频大模型、音频大模型、图片大模型、语言大模型组成,Sora则是基于视觉数据的底层通用模型,相当于视频领域的Midjourney;能力上,万兴“天幕”涵盖当前市面上语言、音频、图像的大模型能力,Sora核心的文生视频能力,是万兴“天幕”的原子能力之一;用户方面,与Sora偏向影视公司或专业机构不同,万兴“天幕”面向更细分垂直的市场,包括泛知识、泛营销、泛娱乐等领域,相关能力已在海外规模化商用。


AI视频生成赛道前景广阔。数据显示,截至2023年末,仅国内短视频用户规模已突破10亿人,不谈增量市场可能带来的红利,仅仅为这10多亿用户提供AI视频创意服务,就有大量文章可做。


在业内人士看来,Sora是AGI(通用人工智能)实现的重要里程碑,一方面,Sora的出现将全球目光聚焦于视频生成领域,验证了视频为王的趋势,也进一步验证了无视频不传播的时代,“视频+大模型”的应用市场空间扩展。


对于Sora是否会一家独大,对相关AI视频生成模型或厂家形成冲击。业内人士认为,参考此前ChatGPT掀起的大语言模型热潮,在ChatGPT爆红后,全球大语言模型不仅没有出现一家独大的情况,反而随着Google、Meta、英伟达,以及百度、阿里、华为等公司的入场,呈现百花齐放态势,仅国内的大语言模型数量就早已超过百家。展望行业未来,Sora对于视频大模型领域的推动作用也令人期待。


另一方面,一个大模型无法解决全世界的问题。伴随全球算力需求爆发式增长,大模型正从全球化走向本土,算力本地布局、更本土化的数据、更本土化的应用是大势所趋。例如,在Open AI发布的Demo视频“与中国龙一起庆祝农历新年”中,Sora就无法准确生成视频画面中的中文。




日前,国泰君安证券发布研报称,Sora模型推动AI多模态领域飞跃式发展,AI创作等相关领域将迎来深度变革,AI赋能范围进一步扩大,推荐万兴科技、金山办公、科大讯飞、虹软科技等标的。


一年前,ChatGPT以迅雷不及掩耳之势走向全球,为文本创作领域带来重大变革,并掀起了全球范围内的“百模大战”。


一年后的今天,Sora到来,AI视频生成赛道或许迎来一个新的“ChatGPT时刻”,多模态大模型的升维竞赛有望打响,AI视频生成的技术和产品有望加速爆发。


相关文章

ChatGPT等生成式工具将进行监管,全球首个AI监管法案获批!

当地时间3月13日,在法国斯特拉斯堡举行的欧洲议会全会上,欧洲议会正式投票通过并批准欧盟《人工智能法案》。这是全球首部人工智能(AI)法案,标志着AI监管新时代的展开。《每日经济新闻》记者注意到,欧盟...

UC伯克利仅使用当前模型检查点预测未来模型,GPT-5涌现能力可预测?!

LLM 规模扩展的一个根本性挑战是缺乏对涌现能力的理解。特别是,语言模型预训练损失是高度可预测的。然而,下游能力的可预测性要差得多,有时甚至会出现涌现跳跃(emergent jump),这使得预测未来...

几百家企业接入DeepSeek,后续将有更多的企业接入!

几百家企业接入DeepSeek,后续将有更多的企业接入!

但要有人说:DeepSeek 是秦始皇。那咱没准还真要琢磨下,毕竟人家这段时间,真一统全国了。。。你看甭管是哪个行业的哪家公司、和 AI 有没有打过交道,平时有没有互相 Diss ,最近都跟说好了一样...

GPT-5全面超越GPT-4,核聚变成最大王牌

OpenAI再一次敲响了AGI时刻。AGI不久后到来,OpenAI已做好准备当地时间1月18日,在瑞士达沃斯举办的“2024年度世界经济论坛”上,OpenAI首席执行官山姆·奥特曼再一次语出惊人,成为...

国产的GPT应用商店发布

OpenAI在一周之前刚刚推出GPT应用商店,宣布AI的应用时代就此拉开帷幕了。一周之后,国内的头部AI大模型厂商智谱就推出了照猫画虎的AI智能体应用商店。打开智谱清言的网站,就可以看到里面的智能体商...

ChatGPT 出现答非所问、胡言乱语,OpenAI 已紧急修复!

2 月 22 日消息,ChatGPT 用户昨日发现,该聊天机器人返回了很多奇怪的回答内容,例如切换到其它语言、循环输出,反复自我纠正,甚至有些回复答非所问,纯属胡言乱语。例如一位用户和 ChatGPT...