
由于Openai发布了Sora,因此AI视频生成技术已经进入了爆炸的快速阶段。通过扩散模型的产生的强大能力,我们可以看到视频的产生接近现实的影响。但是,随着模型的诚实持续改善,瓶颈速度已成为主要应用道路的最大障碍。目前,WAN 2.1,Hunyuanvideo等视频生成的最佳模型。主要的瓶颈发生在3D全注意模块中,该模块的总理解时间约为总理解时间的80%。为了解决这个问题,来自加利福尼亚州伯克利和麻省理工学院的研究人员提出了针对该小说的解决方案的共同建议:广泛的Videogen。纸张标题:稀疏视频:使用时空宽松纸张链接链接:https://arxiv.org/abs/2502.01776代码:https://github.com/svg-project/svg-project/sparse-parse-parse-videenn ebage:模型翻新。通过探索关注机理和整合的空间和时间稀疏性 - 随着自适应稀疏选择和操作员的优化,识别时间成功减少了一半。令人惊讶的是,与密集的注意方法相比,它开发的视频具有轻微的视觉差异,从而保持了像素的忠诚度很高(PSNR = 29)。广泛的视频原也是达到像素忠诚度水平的第一种方法。目前,稀疏视频原支持SOTA的各种开源模型,例如WAN 2.1,Hunyuanvideo,Cogvideox等。他们的所有代码都是开放资源。 ICML 2025接受了工作。瓶颈扩散模型(扩散模型)以扩散视频,一直是产生图像和视频的主要解决方案。特别是,基于变压器架构的视频传播视频(DIT)在建模长期和空间方面具有重大好处依赖项和视觉细节。但是,DIT的一个关键特征-3D的全部注意力模型 - 还具有大型计算。每个令牌不仅考虑当前帧的空间上下文,而且还参与整个帧的时间建模。随着分辨率和帧数的增加,计算注意力复杂性增加了二次,高于普通图像生成模型。例如,Hunyuanvideo和WAN 2.1在1×H100中生成5秒的720p视频需要29分钟,并且注意力的计算持续了80%以上。如此高的成本极大地限制了视频扩散模型在现实世界中部署的能力。广泛的视频原的基本设计引起了人们的注意,有两个独特的杂物散布的变压器图模式的注意力:空间稀疏和时间稀疏。大多数注意力头可以归类为其中之一,而两个类别的注意力头可能是SP相应地进行:空间头和颞头。空间头 - 专注于与空间相邻的令牌。空间头专注于框架和相邻帧的令牌。它的注意地图以类似块的方式铺设,并集中在主对角线附近。它负责建模局部一致性 - 空间的标准,以使图像生成与框架弯曲相一致。颞头 - 专注于不同框架的同一令牌。时间头主要用于获得框架之间的令牌关系。它的注意地图以斜线方式铺设,并具有恒定的步长。这种机制确保了时间的时间,即同一事物与许多框架保持相关。注意力模式的解构有助于模型确定哪些令牌是“重要的”,并且在计算过程中可以忽略哪些令牌,从而开发了广泛的注意力方法。实施损失的主要动态自适应策略像素保真度虽然空间头和颞头求解了空间和时间的一致性 - 相同的问题,实现像素保真度丢失的关键是优化以将MG MGA IT结合起来。在乳酸和不同世代的不同步骤下,对差异的最佳方法可以巨大变化。因此,静态稀疏模式不能确保最佳效果,应采用动态和自适应技术。直到今天,广泛的Videogen都采用了一种在线稀疏的优化模式(在线分析)来制作动态的注意力决策掩码,该掩码用于更改 - 最新确定每个关注主管使用的广泛方法。过程如下:1。在理解的每个步骤中,少数查询令牌(仅0.05%,约64个)是随机样本。 2。使用空间和时间来计算他们的注意力结果,并将误差与密集的关注进行比较; 3。选择最小的错误模式r每个关注脑袋。仅使用64个查询令牌(占所有令牌总数的0.1%),可以准确预测广泛散布的最佳模式。光 - 探索 +适当错误的本地方法增加了一些高架计算(3%),但是可以在不同的步骤下准确选择最佳混乱模式,从而最大程度地提高图像质量(PSNR 29)并实现有效的加速度。尽管使用稀疏性的使用可以显着提高注意力速度,但与核的层层 +加速度的布局的变换相反,相反的计算可以显着提高注意力速度,但是如何实现加速的最佳效果仍然是一个主要问题。特别是,不间断的暂时记忆访问模式仍然给GPU性能带来挑战。颞头需要在许多框架中访问相同空间位置的令牌。但是,传统的张量布局通常将数据存储在框架上的订单中,也就是说同一帧中的令牌不断存储,而在不同帧中相同位置的令牌则散布。为了解决这个问题,稀疏的Videogen引入了一种转换硬件布局的方式。此方法通过将张量从基于框架的布局转换为令牌尺寸的布局来优化内存访问模式,从而使暂时头部要求的令牌显示出恒定的内存修复。具体而言,这种转换是通过转置操作实现的,修复了连续内存块中的原始散布令牌,NA符合GPU内存访问属性。这种布局的布局不仅提高了访问内存的效率,而且还允许广泛的计算注意力以更好地使用GPU的并行计算。实验结果表明,在转换布局后,广泛的视频原具有接近时间头的理论限制的效果,从而显着提高了推理的整体速度。除了优化t他注意机制,稀疏的视频原还定制了查询键标准化(QK-NORM)和旋转嵌入位置(绳索)。进一步提高推理的效率。在WAN2.1,Hunyuanvideo和Cogvideox中,广泛的视频源显示出强劲的性能:1。将Hunyuanvideo的理解时间从大约30分钟的时间减少到H100中的不到15分钟;将WAN 2.1理解时间从30分钟转换为20分钟; 2。将PSNR稳定在29dB以上,接近注意力输出的密集图像; 3。它可以无缝连接到现有的各种现有的SOTA发电模型(WAN 2.1,Cogvideox,Hunyuanvideo); 4。支持T2V(文本开发的视频)和I2V(图像生成视频)任务。 在未来,随着视频扩散模型的复杂度进一步上升,如何在不损失视觉质量的前提下提升效率