半年过去，AI视频卷到哪儿了？(2)_经济报道网

「定焦」测试了5款国内比较热的免费文生视频AI产品，分别为字节的即梦、Morph AI的Morph Studio、爱诗科技的PixVerse、MewXAI的艺映AI、右脑科技的Vega AI，给了它们一段相同的文字指令：“一个穿着红裙子的小女孩，在公园里，喂一只白色的小兔子吃胡萝卜。”

几款产品的生成速度上差不多，仅需2-3分钟，但清晰度、时长差得不少，准确度上更是“群魔乱舞” ，得到结果如下：

艺映AI

Vega AI

即梦

Morph

Pix Verse

各家的优缺点很明显。即梦赢在时长，但生成质量不高，主角小女孩在后期直接变形，Vega AI也是相同的问题。PixVerse的画质比较差。

相比之下，Morph生成的内容很准确，但只有短短2秒。艺映画质也不错，但对文字理解不到位，直接把兔子这一关键元素弄丢了，且生成视频不够写实，偏漫画风。

总之，还没有一家产品能给到一段符合要求的视频。

AI视频难题：准确性、一致性、丰富性

「定焦」的体验效果和各家释放的宣传片相差很大，AI视频如果想要真正商用，还有相当长的一段路要走。

张恒告诉「定焦」，从技术角度看，他们主要从三个维度考量不同AI视频模型的水平：准确性、一致性、丰富性。

如何理解这三个维度，张恒举了个例子。

比如生成一段“两个女孩在操场看篮球比赛”的视频。

准确性体现在，一是对内容结构理解的准确，比如视频中出现的要是女孩，而且还是两个；二是流程控制的准确，比如投篮投进后，篮球要从篮网中逐渐下降；最后是静态数据建模准确，比如镜头出现遮挡物时，篮球不能变成橄榄球。

一致性是指，AI在时空上的建模能力，其中又包含主体注意力和长期注意力。

主体注意力可以理解为，在看篮球比赛的过程中，两个小女孩要一直留在画面里，不能随便乱跑；长期注意力为，在运动过程中，视频中的各个元素既不能丢，也不能出现变形等异常情况。

丰富性则是指，AI也有自己的逻辑，即便在没有文字提示下，能生成一些合理的细节内容。

以上维度，市面上出现的AI视频工具基本都没能完全做到，各家也在不断提出解决办法。

比如在视频很重要的人物一致性上，即梦、可灵想到了用图生视频取代文生视频。即用户先用文字生成图片，再用图片生成视频，或者直接给定一两张图片，AI将其连接变成动起来的视频。

“但这不属于新的技术突破，且图生视频难度要低于文生视频，”张恒告诉「定焦」，文生视频的原理是，AI先对用户输入的文字进行解析，拆解为一组分镜描述，将描述转文本再转图片，就得到了视频的中间关键帧，将这些图片连接起来，就能获得连续有动作的视频。而图生视频相当于给了AI一张可模仿的具体图片，生成的视频就会延续图片中的人脸特征，实现主角一致性。

他还表示，在实际场景中，图生视频的效果更符合用户预期，因为文字表达画面细节的能力有限，有图片作为参考，会对生成视频有所帮助，但当下也达不到商用的程度。直观上说，5秒是图生视频的上限，大于10秒可能意义就不大了，要么内容出现重复，要么结构扭曲质量下降。

目前很多宣称用AI进行全流程制作的影视短片，大部分采用的是图生视频或者视频到视频。

即梦的使用尾帧功能用的也是图生视频，「定焦」特意进行了尝试，结果如下：