首页 资讯 财经 国内 专栏 生活 关注 图库 艺术 关于

科技

旗下栏目: 科技 汽车 健康 旅行

Sora 横空出世,会颠覆哪些行业?

科技 | 发布时间:2024-02-20 | 人气: | #评论#
摘要:来源: 泽平宏观 北京 文:任泽平团队 2月16日,OpenAI发布视频生成模型Sora,极大拓展AI在视频内容生成方面能力。Sora在关键指标上大幅领先之前的一些视频生成类模型,用它生成视频,会发
来源: 泽平宏观 北京  

  

  文:任泽平团队

  2月16日,OpenAI发布视频生成模型Sora,极大拓展AI在视频内容生成方面能力。Sora在关键指标上大幅领先之前的一些视频生成类模型,用它生成视频,会发现其对物理世界的空间模拟能力甚至达到了逼近真实的水平。

  Sora为什么可以堪称是AI界的新里程碑?它是如何突破AIGC即AI内容创作上限的?客观来看,当前版本的Sora还有没有什么局限性和不足?

  Sora等视频生成类模型,未来更新迭代的方向是什么?它的出现会颠覆哪些行业?对我们每个人产生何种影响?它的背后又有什么新产业机遇?‍‍‍

  1、Sora是怎么实现的?为什么是AI界的新里程碑?

  Sora之所以是AI里程碑,是因为它再一次突破了AIGC用AI驱动内容创作的上限。此前大家已经开始使用 Chatgpt 等文本类辅助内容创作,辅助插图和画面生成,用虚拟人做短视频。而 Sora 是视频生成类大模型,通过输入文本或图片可生成、连接、扩展等多种方式编辑视频,属于多模态大模型范畴,该类模型是在 GPT 这类语言类大模型上 进一步 延伸、拓展。 Sora 通过一种类似于 GPT-4 对文本令牌进行操作的方式来处理视频“补丁”。该模型的关键创新在于将视频帧视为补丁序列,类似于语言模型中的单词令牌,使其能够有效地管理各种视频。这种方法与文本条件生成相结合,使 Sora 能够根据文本提示生成上下文相关且视觉上连贯的视频。

  具体原理上,Sora主要通过三个步骤实现视频训练。首先是视频压缩网络,将视频或图片降维成一个紧凑、高效的形式。其次是时空补丁提取,将视图信息分解成一个个更小的单元,每个单元都含有视图中一部分的空间和时间信息,便于Sora在之后的步骤中能进行针对性处理。最后是视频生成,输入文本或图片进行解码加码,由Transformer模型(即ChatGPT基础转换器)决定如何将这些单元转换或组合,从而将文本和图片提示中的内容形成完整的视频。

  

  Sora在视频生成模型最关键的两项指标——时长和分辨率上大幅超越先前模型,并且具备较强的文本理解深度和细节生成能力,可以说是AI界的又一里程碑级的产品。Sora 发布前 , 主要模型如 Pika1.0 、 Emu Video 、 Gen-2 可生成时长分别为 3~7 秒、 4 秒、 4~16 秒;而 Sora 可生成时长高达 60 秒,能实现 1080p 分辨率,且 Sora不仅能基于文本提示生成视频,也具备视频编辑和扩展能力。Sora 对文本的深度理解也较强。在大量文本解析的训练下, Sora 可以准确捕捉、理解文本指令背后的情感用意,并流畅、自然地将文本提示转变为细节丰富、场景匹配的视频内容。

  Sora在视频生成中可以较好地模拟一个虚拟世界的物理规律,更好的理解物理世界,从而产生真实的镜头感。其技术特点主要有二:

  一是能多镜头生成连贯的三维空间运动视频。

  二是能保持同一物体在不同视角镜头下的一致性。以此,模型能保持视频中人物、物体、场景的运动连贯性和持续性,并可以通过微调对世界中的元素产生影响,进行简单互动。对比此前的Pika等模型,Sora生成视频还可以对视频色彩风格等要素精确理解,创造出人物表情丰富、情感生动的视频内容。且注重主体和背景的关系,使视频主体与背景的互动高度流畅、稳定,分镜切换符合逻辑。

  在官方给出的一则 生成视频的 例证中: “一位时尚女性走在东京的街道上,街道上到处都是暖色调的霓虹灯和动画城市标志。她身穿黑色皮夹克、红色长裙和黑色靴子,手拿黑色皮包。她戴着太阳镜,涂着红色唇膏。她走起路来自信而随意。街道潮湿而反光,与五颜六色的灯光形成镜面效果。许多行人走来走去”,Sora做到了完全细致细节的描述,甚至到皮肤细节描绘,且对于光影反射运动方式、镜头移动等细节处理都具备真实感。

责任编辑:网络
首页 | 资讯 | 财经 | 国内 | 专栏 | 生活 | 关注 | 图库 | 艺术 | 关于 | 名人堂

Copyright © 2014-2016 中国经济报道网 版权所有 京ICP备16067457号

电脑版 | | 移动版

Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。