Sora为何出道即碾压主流AI视频模型：文生视频最长纪录，对世界有全面认知_经济报道网

发布时间:2024-02-19 浏览: 次作者:网络

北京

近日，AI（人工智能）新锐巨头OpenA推出文生视频模型Sora，将人们的视线再次引到了AI视频生成赛道。

由于在AI生成视频的时长上成功突破到一分钟，再加上演示视频的高度逼真和高质量，Sora立刻引起了轰动。不过，OpenAI尚未宣布Sora对公众正式开放的日期。Sora将首先被提供给安全团队，以评估产品的危害或风险，一些视觉艺术家、设计师和电影制作人也能获得Sora的访问权限。

在Sora推出之前，已经出现了一些用户认可度较高的AI生成视频模型。为什么Sora能引发如此大的轰动？多家外媒对三款热门文生视频模型Runway、Pika Labs和Stable Video进行了分析，并比较了Sora和它们之间的技术差别。

时长：60秒 vs 16秒

在Sora横空出世之前，Runway一直被视为AI生成视频的默认选择，尤其是自去年11月推出第二代模型以来，Runway还被称为“AI视频界的MidJourney”。第二代模型Gen-2不仅解决了第一代AI生成视频中每帧之间连贯性过低的问题，在从图像生成视频的过程中也能给出很好的结果。

Runway能够生成已经很逼真的四秒短视频。来源：Runway

而在Sora发布后，Runway的CEO克里斯托瓦尔·巴伦苏埃拉（Cristóbal Valenzuela）便在X平台上发布了两个字：“Game On（比赛开始了）。”

Sora最震撼的技术突破之一在于其输出的视频时长。Runway能够生成4秒长的视频，用户可以将其最多延长至16秒，是AI生成视频在2023年所能达到的最长时长纪录。Stable Video也提供4秒的视频，Pika则提供3秒的视频。在这一方面，Sora以1分钟的时长向竞争对手们提出了挑战。

Sora传播度最高的时长60秒的视频之一，女子行走在东京街头。来源：Sora

Sora模型能够实现视频时长突破，主要功臣是其所采用的扩散Transformer架构，而Sora的创始者之一、现任OpenAI工程师的William Peebles刚在去年和别人一同发布了针对该架构的研究论文。

本质上，Sora和Pika、Runway采用了相似的底层模型，即Diffusion扩散模型。不同之处在于，Sora把其中的实现逻辑进行了变化，将U-Net架构替换成了Transformer架构。

不过目前，外界尚不清楚Sora提供了哪些功能以供用户定制输出视频，因此Runway仍可能是Sora的替代方案之一。今年1月，Runway刚宣布，用户将能够通过多头运动笔刷（Multi Motion Brush）功能实现对AI生成视频中多个元素的运动控制。此外，Runway也因其提供了集合多种AI工具的视频制作解决方案而备受推崇。

镜头语言：运动镜头 vs 静止视角

值得注意的是，X平台上的一些用户表示，在OpenAI推出Sora的2月15日晚上，AI视频生成初创公司Stability AI也在官网和X平台上发布了新动态，宣布了Stable Video Diffusion更新1.1版本。但是，几分钟后，这两条消息都迅速消失了。

被Stability删掉的文章截屏。来源：X平台

外界无从得知这究竟是由于操作失误，还是Stability观察到了两种AI生成视频之间的巨大质量差异，选择重新制作广告。Stable Video和前两款产品一样，都没能脱离现有文生视频的一般模式，即输出单一的、通常是静止视角的短视频片段。相比之下，Sora的宣传视频包括变换摄像机角度、电影式剪辑和场景变换，也就是人们常说的镜头语言的使用。

此外，许多分析都指出，Sora带有世界模型的特质。所谓世界模型便是对真实的物理世界进行建模，让机器能够像人类一样，对世界产生一个全面而准确的认知。这一特性使得AI视频生成更流畅、更符合逻辑，降低了视频模型的训练成本，提升了训练效率。

由Sora生成的“赛博朋克背景下机器人的生活故事”。来源：Sora

Sora为何出道即碾压主流AI视频模型：文生视频最长纪录，对世界有全面认知

相关文章Related

首页 | 关于