
智东西
作者|程茜
编辑|心缘
智东西2月26日报道,昨夜,阿里云视觉生成基座模型万相2.1(Wan)宣布开源!
万相2.1共有两个参数规模,140亿参数模型适用于对生成效果要求更高的专业人士,13亿参数模型生成速度较快且能兼容所有消费级GPU,两个模型的全部推理代码和权重已全部开源。

综合来看,万相2.1的主要优势集中于以下五点:SOTA性能:万相2.1在多个基准测试中优于现有的开源模型和商业解决方案,140亿参数专业版万相模型在权威评测集VBench中,以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,居于榜首。

支持消费级GPU:13亿参数模型仅需8.2GB显存就能生成480P视频,可兼容几乎所有消费级GPU,约4分钟内(未使用量化等优化技术)在RTX 4090上生成5秒的480P视频。多项任务:万相2.1同时支持文生视频、图生视频、视频编辑、文生图和视频生音频视觉文本生成:万相2.1是首个能够生成中英文文本的视频模型,无需外部插件就能生成文字。

强大的视频VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的1080P视频进行编码和解码,同时保留时间信息。
万相系列模型的研发团队基于运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度进行了模型性能评估,该模型实现5项第一,万相系列模型能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;还能还原碰撞、反弹、切割等复杂真实物理场景。
官方Demo中“熊猫用滑板炫技”的视频,展示了一只熊猫连续完成多个高难度动作:

阿里云通义实验室的研究人员昨夜23点直播介绍了万相2.1的模型及技术细节。

此外,阿里通义官方文章还提到,万相2.1的开源,标志着阿里云实现了全模态、全尺寸的开源。
目前,万相2.1支持访问通义官网在线体验或者在Github、HuggingFace、魔搭社区下载进行本地部署体验。
通义官网体验地址:https://tongyi.aliyun.com/wanxiang/
Github: https://github.com/Wan-Video/Wan2.1
HuggingFace:https://huggingface.co/spaces/Wan-AI/Wan2.1魔搭社区:https://modelscope.cn/studios/Wan-AI/Wan-2.1一、生成能力全方位开挂,文字、特效、复杂运动都在行
在生成能力方面,万相2.1可以还原复杂运动表现、遵循物理规律、影院级别画质、具备文字生成和视觉特效制作能力。
万相2.1支持生成走路、吃饭等基本的日常运动,还能还原复杂的旋转、跳跃、转身跳舞以及击剑、体操等体育运动类的动作。

此外,其能在遵循物理世界规律的前提下,还原重力、碰撞、反弹、切割等物理场景,并生成万物生长等有创意的视频。

在画质方面,万相2.1生成的视频达到影院级别画质,同时理解多语言、长文本指令,呈现角色的互动。

同时,万相2.1是首次在开源模型中支持中英文文字渲染,中英文艺术字生成。