首页 资讯 财经 国内 专栏 生活 关注 图库 艺术 关于

科技

旗下栏目: 科技 汽车 健康 旅行

刚刚,阿里开源最强视频大模型!性能干翻Sora,8G显卡就能跑(2)

科技 | 发布时间:2025-02-26 | 人气: | #评论#
摘要:阿里云还公开了多个万相2.1生成视频的Demo。 以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进

阿里云还公开了多个万相2.1生成视频的Demo。

以红色新年宣纸为背景,出现一滴水墨,晕染墨汁缓缓晕染开来。文字的笔画边缘模糊且自然,随着晕染的进行,水墨在纸上呈现“福”字,墨色从深到浅过渡,呈现出独特的东方韵味。背景高级简洁,杂志摄影感。

不过,纸上福字左上角的一点并没有书写过程,而是突然在视频后期出现。

纪实摄影风格,低空追踪视角,一辆宝马M3在蜿蜒的山路上疾驰,车轮扬起滚滚尘土云。高速摄像机定格每个惊险过弯瞬间,展现车辆极致的操控性能。背景是连绵起伏的山脉和蓝天。画面充满动感,轮胎与地面摩擦产生的烟雾四散。中景,运动模糊效果,强调速度感。

可以看到,视频镜头随着汽车的漂移加速,捕捉到了每一个画面,并且在漂移时路边还有与地面摩擦飞扬的尘土。

微观摄影,珊瑚管虫和霓虹刺鳍鱼在五彩斑斓的海底世界中游弋。珊瑚管虫色彩鲜艳,触手轻轻摇曳,仿佛在水中舞蹈;霓虹刺鳍鱼身体闪耀着荧光,快速穿梭于珊瑚之间。画面充满奇幻视觉效果,真实自然,4k高清画质,展现海底世界的奇妙与美丽。近景特写,水下环境细节丰富。

整个画面色彩鲜艳,对提示词中的细节基本都表现到了。

中国古典风格的动画角色,一个身穿淡紫色汉服的女孩站在樱花树下。她有着大大的眼睛和精致的五官,头发上装饰着粉色的花朵。女孩表情温柔,眼神中带着一丝忧郁,仿佛在思考什么。背景是朦胧的古建筑轮廓,花瓣在空中轻轻飘落,营造出一种宁静而梦幻的氛围。近景特写镜头,强调女孩的面部表情和细腻的光影效果。

视频对“眼神中带着一丝忧郁,仿佛在思考什么”这类复杂的指令,也在女孩的眼神中得到了呈现。

二、优于其他开闭源模型,可兼容消费级显卡

为了评估万相2.1的性能,研发人员基于1035个内部提示集,在14个主要维度和26个子维度上进行了测试,然后通过对每个维度的得分进行加权计算来计算总分,其中利用了匹配过程中人类偏好得出的权重。详细结果如下表所示:

研发人员还对文生视频、图生视频以及模型在不同GPU上的计算效率进行了评估。

文生视频的评估结果:

图生视频的评估结果:

其结果显示,万相2.1均优于其他开源、闭源模型。

不同GPU上的计算效率:

可以看到,13亿参数模型可兼容消费级显卡,并实现较快的生成速度。

三、模型性能提升大杀器:3D VAE、可扩展预训练策略、大规模数据链路构建……

基于主流的DiT和线性噪声轨迹Flow Matching范式,万相2.1基于自研因果3D VAE、可扩展的预训练策略、大规模数据链路构建以及自动化评估指标提升了模型最终性能表现。

VAE是视频生成领域广泛使用的模块,可以使得视频模型在接近无损情况下有效降低资源占用。

在算法设计上,万相基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。以3D VAE为例,为了高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。

责任编辑:网络
首页 | 资讯 | 财经 | 国内 | 专栏 | 生活 | 关注 | 图库 | 艺术 | 关于 | 名人堂

          Copyright © 经济报道网&北京新华佳沃文化传播有限公司 版权所有 京ICP备16067457号 广播电视节目制作经营许可证编号:(京)字第29445号        出版物经营许可证:新出发京零字第海240627号 增值电信业务经营许可证:京B2-20243228

电脑版 | | 移动版

Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。