首页 资讯 财经 国内 专栏 生活 关注 图库 艺术 关于

科技

旗下栏目: 科技 汽车 健康 旅行

刚刚,阿里开源最强视频大模型!性能干翻Sora,8G显卡就能跑

科技 | 发布时间:2025-02-26 | 人气: | #评论#
摘要:2025-02-26 01:23:39 来源: 智东西 北京 智东西 作者|程茜 编辑|心缘 智东西2月26日报道,昨夜,阿里云视觉生成基座模型万相2.1(Wan)宣布开源! 万相2.1共有两个参数规模,140亿参数模型适

2025-02-26 01:23:39 来源: 智东西 北京 


智东西
作者|程茜
编辑|心缘

智东西2月26日报道,昨夜,阿里云视觉生成基座模型万相2.1(Wan)宣布开源!

万相2.1共有两个参数规模,140亿参数模型适用于对生成效果要求更高的专业人士,13亿参数模型生成速度较快且能兼容所有消费级GPU,两个模型的全部推理代码和权重已全部开源。

综合来看,万相2.1的主要优势集中于以下五点:SOTA性能:万相2.1在多个基准测试中优于现有的开源模型和商业解决方案,140亿参数专业版万相模型在权威评测集VBench中,以总分86.22%大幅超越Sora、Luma、Pika等国内外模型,居于榜首。

支持消费级GPU:13亿参数模型仅需8.2GB显存就能生成480P视频,可兼容几乎所有消费级GPU,约4分钟内(未使用量化等优化技术)在RTX 4090上生成5秒的480P视频。多项任务:万相2.1同时支持文生视频、图生视频、视频编辑、文生图和视频生音频视觉文本生成:万相2.1是首个能够生成中英文文本的视频模型,无需外部插件就能生成文字。

强大的视频VAE:Wan-VAE提供卓越的效率和性能,可对任意长度的1080P视频进行编码和解码,同时保留时间信息。

万相系列模型的研发团队基于运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度进行了模型性能评估,该模型实现5项第一,万相系列模型能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;还能还原碰撞、反弹、切割等复杂真实物理场景。

官方Demo中“熊猫用滑板炫技”的视频,展示了一只熊猫连续完成多个高难度动作:

阿里云通义实验室的研究人员昨夜23点直播介绍了万相2.1的模型及技术细节。

此外,阿里通义官方文章还提到,万相2.1的开源,标志着阿里云实现了全模态、全尺寸的开源。

目前,万相2.1支持访问通义官网在线体验或者在Github、HuggingFace、魔搭社区下载进行本地部署体验。

通义官网体验地址:https://tongyi.aliyun.com/wanxiang/

Github: https://github.com/Wan-Video/Wan2.1

HuggingFace:https://huggingface.co/spaces/Wan-AI/Wan2.1魔搭社区:https://modelscope.cn/studios/Wan-AI/Wan-2.1一、生成能力全方位开挂,文字、特效、复杂运动都在行

在生成能力方面,万相2.1可以还原复杂运动表现、遵循物理规律、影院级别画质、具备文字生成和视觉特效制作能力。

万相2.1支持生成走路、吃饭等基本的日常运动,还能还原复杂的旋转、跳跃、转身跳舞以及击剑、体操等体育运动类的动作。

此外,其能在遵循物理世界规律的前提下,还原重力、碰撞、反弹、切割等物理场景,并生成万物生长等有创意的视频。

在画质方面,万相2.1生成的视频达到影院级别画质,同时理解多语言、长文本指令,呈现角色的互动。

同时,万相2.1是首次在开源模型中支持中英文文字渲染,中英文艺术字生成。

责任编辑:网络
首页 | 资讯 | 财经 | 国内 | 专栏 | 生活 | 关注 | 图库 | 艺术 | 关于 | 名人堂

          Copyright © 经济报道网&北京新华佳沃文化传播有限公司 版权所有 京ICP备16067457号 广播电视节目制作经营许可证编号:(京)字第29445号        出版物经营许可证:新出发京零字第海240627号 增值电信业务经营许可证:京B2-20243228

电脑版 | | 移动版

Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。