首页 资讯 财经 国内 专栏 生活 关注 图库 艺术 关于

科技

旗下栏目: 科技 汽车 健康 旅行

刚刚,阿里开源最强视频大模型!性能干翻Sora,8G显卡就能跑(3)

科技 | 发布时间:2025-02-26 | 人气: | #评论#
摘要:此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。 万相2.1模型架构基于主流的视频DiT结构,通过Full Attentio

此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。

万相2.1模型架构基于主流的视频DiT结构,通过Full Attention机制确保长时程时空依赖的有效建模,实现时空一致的视频生成。

采样策略上,模型的整体训练则采用了线性噪声轨迹的流匹配(Flow Matching)方法。如模型架构图所示,模型首先使用多语言umT5编码器对输入文本进行语义编码,并通过逐层的交叉注意力层,将文本特征向量注入到每个Transformer Block的特征空间,实现细粒度的语义对齐。

此外,研发人员通过一组在所有Transformer Block中共享参数的MLP,将输入的时间步特征T映射为模型中AdaLN层的可学习缩放与偏置参数。在相同参数规模下,这种共享时间步特征映射层参数的方法在保持模型能力同时可以显著降低参数和计算量。

数据方面,研究人员整理并去重了一个包含大量图像和视频数据的候选数据集。在数据整理过程中,其设计了四步数据清理流程,重点关注基本维度、视觉质量和运动质量。通过强大的数据处理流程快速获得高质量、多样化、大规模的图像和视频训练集。

训练阶段,对于文本、视频编码模块,研究人员使用DP和FSDP组合的分布式策略;对于DiT模块采用DP、FSDP、RingAttention、Ulysses混合的并行策略。

基于万相2.1模型参数量较小和长序列带来的计算量较大的特征,结合集群计算性能和通信带宽采用FSDP切分模型,并在FSDP外嵌套DP提升多机拓展性,FSDP和DP的通信均能够完全被计算掩盖。

为了切分长序列训练下的Activation,DiT部分使用了Context Parallelism (CP) 对序列维度进行切分,并使用外层RingAttention、内层Ulysses的2D CP的方案减少CP通信开销。

此外,为了提升端到端整体效率,在文本、视频编码和DiT模块间进行高效策略切换避免计算冗余。具体来说,文本、视频编码模块每个设备读不同数据,在进入DiT之前,通过循环广播方式将不同设备上的数据同步,保证CP组里中数据一样。

在推理阶段,为了使用多卡减少生成单个视频的延迟,选择CP来进行分布式加速。此外,当模型较大时,还需要进行模型切分。

一方面,模型切分策略时,单卡显存不足时必须考虑模型切分。鉴于序列长度通常较长,与张量并行(TP)相比,FSDP的通信开销更小,并且可以被计算掩盖。因此,研究人员选择FSDP方法进行模型切分(注意:这里仅做切分权重,而不做数据并行);另一方面采用序列并行策略:采用与训练阶段相同的2D CP方法:外层(跨机器)使用RingAttention,内层(机器内)使用Ulysses。

在万相2.1 140亿参数模型上,使用FSDP和2D CP的组合方法,在多卡上具有如下图所示的近线性加速:

显存优化方面,研究人员采用分层的显存优化策略,选择一些层进行Offload,其他层根据不同算子计算量和显存占用的分析使用细粒度Gradient Checkpointing(GC)进一步优化Activation显存。最后利用PyTorch显存管理机制,解决显存碎片问题。

在训练稳定性方面,万相2.1借助于阿里云训练集群的智能化调度、慢机检测以及自愈能力,在训练过程中可以自动识别故障节点并快速重启任务,平均重启时间为39秒,重启成功率超过98.23%。

结语:开启全模态开源新时代

2023年8月,阿里云率先开源Qwen模型,正式拉开了开源大模型的序幕。随后,Qwen1.5、Qwen2、Qwen2.5等四代模型相继开源,覆盖了从0.5B到110B的全尺寸范围,涵盖大语言、多模态等领域。目前其千问(Qwen)衍生模型数量已超过10万个。其官方文章显示,随着万相的开源,阿里云实现了全模态、全尺寸的开源。

责任编辑:网络
首页 | 资讯 | 财经 | 国内 | 专栏 | 生活 | 关注 | 图库 | 艺术 | 关于 | 名人堂

          Copyright © 经济报道网&北京新华佳沃文化传播有限公司 版权所有 京ICP备16067457号 广播电视节目制作经营许可证编号:(京)字第29445号        出版物经营许可证:新出发京零字第海240627号 增值电信业务经营许可证:京B2-20243228

电脑版 | | 移动版

Ctrl+D 将本页面保存为书签,全面了解最新资讯,方便快捷。