半年过去，AI视频卷到哪儿了？(3)_经济报道网

不过，目前都还在尝试阶段，即便做了技术叠加，也还没有完全解决人物一致性问题。

AI视频，为什么进化慢？

在AI圈，目前最卷的是美国和中国。

从《2023年全球最具影响力人工智能学者》（简称“AI 2000学者”榜单）的相关报告可以看出，2020年-2023年全球“AI 2000机构”4年累计的1071家机构中，美国拥有443家，其次是中国，有137家，从2023年“AI 2000学者”的国别分布看，美国入选人数最多，共有1079人，占全球总数的54.0%，其次是中国，共有280人入选。

这两年，AI除了在文生图、文生音乐的方面取得较大进步之外，最难突破的AI视频也有了一些突破。

在近期举办的世界人工智能大会上，倚天资本合伙人乐元公开表示，视频生成技术在近两三年取得了远超预期的进步。新加坡南洋理工大学助理教授刘子纬认为，视频生成技术目前处于GPT-3 时代，距离成熟还有半年左右的时间。

不过，乐元也强调，其技术水平还是不足以支撑大范围商业化，基于语言模型开发应用所使用的方法论和遇到的挑战，在视频相关的应用领域也同样适用。

年初Sora的出现震惊全球，它基于transformer架构的新型扩散模型DiT再做扩散、生成的技术突破，提高了图像生成质量和写实，使得AI视频取得了重大突破。Cyrus表示，目前国内外的文生视频，大多数都沿用的是类似技术。

图源 / Sora官网

此刻，大家在底层技术上基本一致，虽然各家也以此为基础寻求技术突破，但更多卷的是训练数据，从而丰富产品功能。

用户在使用字节的即梦和Morph AI的Morph Studio时，可选择视频的运镜方式，背后原理便是数据集不同。

“以往各家在训练时使用的图片都比较简单，更多是对图片存在哪些元素进行标注，但没有交代这一元素用什么镜头拍摄，这也让很多公司发现了这一缺口，于是用3D渲染视频数据集补全镜头特征。”张恒表示，目前这些数据来自影视行业、游戏公司的效果图。

「定焦」也尝试了这一功能，但镜头变化不是很明显。

Sora们之所以比GPT、Midjourney们发展得慢，是因为又搭了一个时间轴，且训练视频模型比文字、图片更难。“现在能用的视频训练数据，都已经挖掘殆尽，我们也在想一些新办法制造一系列可以拿来训练的数据。”张恒说。

且每个AI视频模型都有自己擅长的风格，就像快手可灵做的吃播视频更好，因为其背后有大量这类数据支撑。

石榴AI创始人沈仁奎认为，AI视频的技术有Text to video（文本转视频），Image to video（图片转视频），Video to video（视频转视频），以及Avatar to video（数字人），能定制形象和声音的数字人，已经运用到了营销领域，达到了商用程度，而文生视频还需要解决精准度和可控度问题。

此刻，无论是由抖音和博纳合作的AI科幻短剧《三星堆：未来启示录》，还是快手原创的AI奇幻短剧《山海奇镜之劈波斩浪》，更多是大模型公司主动找影视制作团队进行合作，有推广自家技术产品的需求，且作品也没有出圈。

在短视频领域，AI还有很长的路要走，干掉好莱坞了的说法更为时尚早。

*题图来源于Pexels。

科技

首页 > 生活 > 科技 >

半年过去，AI视频卷到哪儿了？(3)

AI视频，为什么进化慢？

频道精选

最火资讯