AI视频生成迎来“GPT时刻”,Sora火爆全球

seekdeep2年前 (2024-02-20)AI资讯948

继Runway、Pika、字节PixelDance、万兴“天幕”发布，2月16日凌晨，“王炸”模型Sora横空出世，AI视频生成迎来“GPT时刻”。

在Open AI公布的48个样片中，Sora展现出令人惊叹的视频生成效果，视频时长提升至1分钟，生成的角色表情逼真，还实现了多角度镜头切换与流畅分镜，可展现真实光影、运动和镜头移动效果。

据了解，Sora是一个扩散Transformer模型，通过采用Diffusion Transformer等技术处理不同持续时间、分辨率和比例的视频/图像，实现“世界模拟器”，达到理解真实世界的运动和物理能力。

对比Runway、Pika等玩家，Sora的特别之处在于，它能够理解和模拟真实世界，从而生成符合物理和运动学规律的复杂场景的超逼真视频。例如，当Sora学习人吃汉堡的视频时，它记住的不仅是吃汉堡这一“具体画面”，还有“咬了就会有痕迹”这个“物理规律”，让AI生成的视频更真实。

业内人士指出，世界模拟器是AI生成视频的一种方式，它的成功会带动视频生成赛道的发展，加速视频生成的创新和成熟。

面对AI视频生成领域的广阔前景，国内各厂商正加大投入，推动AI视频生成进入全新时代。字节跳动于去年11月发布PixelDance模型，不仅在视频时长上实现了突破，还可通过描述（纯文本）+首帧指导（图片）+尾帧指导（图片），生成包含复杂场景和动作的视频，用上一个视频片段尾帧为下一个视频头帧提供指导思路。

AIGC软件A股上市公司万兴科技（300624.SZ）于今年年初推出国内首个以音视频为核心的多媒体大模型万兴“天幕”。作为一家产品创新型公司，万兴科技很早就拥抱AIGC，是首批开通Azure OpenAI商用服务权限的国内企业，旗下Wondershare Filmora、万兴PDF、亿图图示等软件已进行AIGC化升级，并推出万兴播爆、万兴智演、Wondershare Kwicut等AIGC新品。

伴随Sora发布，作为音视频多媒体垂类大模型的开拓者，万兴“天幕”备受关注，但据了解，其与Sora在定位、能力、用户群等方面具有一定的差异化。定位上，万兴“天幕”是音视频多媒体创作垂类大模型，由视频大模型、音频大模型、图片大模型、语言大模型组成，Sora则是基于视觉数据的底层通用模型，相当于视频领域的Midjourney；能力上，万兴“天幕”涵盖当前市面上语言、音频、图像的大模型能力，Sora核心的文生视频能力，是万兴“天幕”的原子能力之一；用户方面，与Sora偏向影视公司或专业机构不同，万兴“天幕”面向更细分垂直的市场，包括泛知识、泛营销、泛娱乐等领域，相关能力已在海外规模化商用。

AI视频生成赛道前景广阔。数据显示，截至2023年末，仅国内短视频用户规模已突破10亿人，不谈增量市场可能带来的红利，仅仅为这10多亿用户提供AI视频创意服务，就有大量文章可做。

在业内人士看来，Sora是AGI（通用人工智能）实现的重要里程碑，一方面，Sora的出现将全球目光聚焦于视频生成领域，验证了视频为王的趋势，也进一步验证了无视频不传播的时代，“视频+大模型”的应用市场空间扩展。

对于Sora是否会一家独大，对相关AI视频生成模型或厂家形成冲击。业内人士认为，参考此前ChatGPT掀起的大语言模型热潮，在ChatGPT爆红后，全球大语言模型不仅没有出现一家独大的情况，反而随着Google、Meta、英伟达，以及百度、阿里、华为等公司的入场，呈现百花齐放态势，仅国内的大语言模型数量就早已超过百家。展望行业未来，Sora对于视频大模型领域的推动作用也令人期待。

另一方面，一个大模型无法解决全世界的问题。伴随全球算力需求爆发式增长，大模型正从全球化走向本土，算力本地布局、更本土化的数据、更本土化的应用是大势所趋。例如，在Open AI发布的Demo视频“与中国龙一起庆祝农历新年”中，Sora就无法准确生成视频画面中的中文。

日前，国泰君安证券发布研报称，Sora模型推动AI多模态领域飞跃式发展，AI创作等相关领域将迎来深度变革，AI赋能范围进一步扩大，推荐万兴科技、金山办公、科大讯飞、虹软科技等标的。

一年前，ChatGPT以迅雷不及掩耳之势走向全球，为文本创作领域带来重大变革，并掀起了全球范围内的“百模大战”。

一年后的今天，Sora到来，AI视频生成赛道或许迎来一个新的“ChatGPT时刻”，多模态大模型的升维竞赛有望打响，AI视频生成的技术和产品有望加速爆发。

返回列表

上一篇：系统提示词塞满繁文缛节,ChatGPT更新引众怒！

下一篇：听听来自不同领域学者的看法,如何看待ChatGPT？

求索深度

AI视频生成迎来“GPT时刻”,Sora火爆全球

相关文章

六大趋势重塑未来生活，智能体崛起引领潮流，2025年AI大变革！

Agent不会复杂任务规划,GPT-4/Gemini大翻车做攻略成功率≈0%！

GPT-5有望今年夏季发布，多模态能力预期提升，中国银河给予计算机行业推荐评级！

听听来自不同领域学者的看法,如何看待ChatGPT!

AI是否会取代新闻媒体的记者？

高考报考GPT，百年育才发布会圆满落幕

Copyright 求索深度网 ICP备:赣ICP备2023003176号-5

求索深度

AI视频生成迎来“GPT时刻”,Sora火爆全球

相关文章

六大趋势重塑未来生活，智能体崛起引领潮流，2025年AI大变革！

Agent不会复杂任务规划,GPT-4/Gemini大翻车做攻略成功率≈0%！

GPT-5有望今年夏季发布，多模态能力预期提升，中国银河给予计算机行业推荐评级！

​听听来自不同领域学者的看法,如何看待ChatGPT!

AI是否会取代新闻媒体的记者？

高考报考GPT，百年育才发布会圆满落幕

Copyright 求索深度网 ICP备:赣ICP备2023003176号-5

听听来自不同领域学者的看法,如何看待ChatGPT!