首页 资讯 财经 国内 专栏 生活 关注 图库 艺术 关于

科技

旗下栏目: 科技 汽车 健康 旅行

Sora 横空出世,会颠覆哪些行业?(2)

科技 | 发布时间:2024-02-20 | 人气: | #评论#
摘要:2、Sora处于什么水平?还有哪些局限? Sora相当于语言类模型的ChatGPT3.5,是业内重大突破,处于非常领先水平,但还是有其本身的局限性。 Sora 和 ChatGPT 同

  

  

2、Sora处于什么水平?还有哪些局限?

  Sora相当于语言类模型的ChatGPT3.5,是业内重大突破,处于非常领先水平,但还是有其本身的局限性。

  Sora 和 ChatGPT 同源与 Transformer 架构,前者在架构基础上搭建了扩散模型,在 展示深度、物体永久性和自然动力学 方面十分出色。之前的真实世界模拟通常是用 GPU 驱动的 游戏引擎 来进行三维物理建模来运行 , 需要人为搭建且过程复杂,精准度也高,能实现高标准的环境模拟和各种交互动作 。 但 Sora 模型没有 数据驱动的物理引擎 和图形编程 ,在 更高要求的三维搭建中准确度低 。因此,实现多个角色自然交互并与环境进行逼真的模拟仍然很困难。

  例如,举两个Sora生成视频出现bug的例子:

  当Sora输入的文本是“一个被打翻了的玻璃杯溅出液体来”时,显示的是玻璃杯融化成桌子,液体跳过了玻璃杯,但没有任何玻璃碎裂效果。

  再比如,从沙滩里突然挖出来一个椅子,而且AI认为这个椅子是一个极轻的物质,以至于可以直接飘起来。

  

  出现这类“错误”的原因主要有两点:

  一是因为模型在自动补齐生成中内容,自发地产生了不在文本规划内的对象或实体,这种情况尤为常见,特别是在拥挤或杂乱的场景中。在某些场景中,这会增加视频的真实感,比如在OpenAI给出的“漫步在冬天日本街头”的案例中,但在更多环境中这会降低物理规律在视频中的合理性,例如第一个例子中凭空生成的桌子是水变成的。

  二是当发生许多动作在Sora的模拟中时,很容易混淆顺序,包括时间顺序与空间顺序。例如,当输入“跑步机上跑步的人”时它有几率会生成一个在跑步机上向错误方向行走的人。因此Sora准确地模拟更复杂的现实世界物理交互、动态和因果关系,对简单的物理和物体属性模拟也仍具有挑战性。

  尽管存在这些持续性的问题,但Sora展现了视频模型未来的潜力,只要有足够的数据和计算能力,视频转换器可能开始更深入地理解现实世界的物理、因果关系。这或许会让基于视频的模拟世界训练AI系统的新方法成为可能。

  3、Sora的发展方向,面临什么挑战和机遇?

  Sora代表视频生成类AI前沿,但是其未来效能的提升或许可以从三大方向切入:

  一是从数据维度入手。随着训练的数据需求激增,未来面临可训练数据样本匮乏问题。当前主要大模型依赖于语言文本,虽然Sora也可以进行图片输入,但训练泛度不及文本。数据种类单一且高质量数据有限,在参数量指数级提升的背景下或将快速耗尽。

  康纳尔大学研究表明,大模型训练的高质量数据很有可能在2026年前就耗尽,低质量文本数据在2030后耗尽。扩大数据来源的维度是Sora的解法。除文字和图像外,音频、视频、热能、势能、深度都能成为Sora学习的拓展领域。帮助其成为真正的多模态大模型。例如Meta开源的ImageBind拥有多种感官,不仅具有DINOv2的图片、视频识别能力,还拥有红外辐射和惯性测量单元,能对深度、热能、势能等不同模态进行感知学习。Sora在输入端拓展后也可以将上述维度与视频生成更好的结合,训练模拟更真实的物理世界。

  二是从算法层进行优化,解决模型学习中存在的“过拟合”和“欠拟合”现象是关键。在前文例子中提到过,Sora会自发地产生不在文本规划内的对象或实体,这有助于完善视频效果的真实性。但是,某些情况下两个高度关联的元素可能会在不适用的场景下同时出现,也就是算法为了达到特定结果而出现了“过拟合”。这种现象类似人类在备考中为了答对一类问题反复强化训练,反而导致考试中同类问题大量出错。

  而同一个例子中杯子被打翻了却没有碎裂效果却是融化了,则是因为模型“欠拟合”。模型出现这两类问题的原因是将并不准确分类的样本选取进行了训练,形成的决策树也就不是最优模型,导致真实应用的泛化表现下降。过拟合和欠拟合无法被彻底消除,但未来可以通过一些方法进行缓解减少,例如:正则化、数据清洗、降低训练样本量、Dropout弃用,剪枝算法等。

责任编辑:网络
首页 | 资讯 | 财经 | 国内 | 专栏 | 生活 | 关注 | 图库 | 艺术 | 关于 | 名人堂

Copyright © 2014-2016 中国经济报道网 版权所有 京ICP备16067457号

电脑版 | | 移动版

Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。