[db:摘要]...
IT之家 2 月 25 日新闻,阿里云本日发布旗下视觉天生基座模子万相 2.1(Wan)开源。此次开源采取最宽松的 Apache2.0 协定,14B 跟 1.3B 两个参数规格的全体推理代码跟权重全体开源,同时支撑文生视频跟图生视频义务,寰球开辟者可在 Github、HuggingFace 跟魔搭社区下载休会。据先容,14B 万相模子在指令遵守、庞杂活动天生、物理建模、笔墨视频天生等方面表示凸起,在评测集 VBench 中,万相 2.1 以总分 86.22% 的成就超出 Sora、Luma、Pika 等海内外模子,位列榜首。1.3B 版本测试成果不只超越了更年夜尺寸的开源模子,乃至还濒临局部闭源模子,同时能在花费级显卡运转,号称“仅需 8.2GB 显存就能够天生 480P 视频”,实用于二次模子开辟跟学术研讨。万相视频模子架构图在算法计划上,万相基于主流 DiT 架构跟线性噪声轨迹 Flow Matching 范式,研发了高效的因果 3D VAE、可扩大的预练习战略等。以 3D VAE 为例,为了高效支撑恣意长度视频的编码跟解码,万相在 3D VAE 的因果卷积模块中实现了特点缓存机制,从而取代直接对长视频端到真个编解码进程,实现了无穷长 1080P 视频的高效编解码。别的,经由过程将空间降采样紧缩提前,在不丧失机能的情形下进一步增加了 29% 的推理时内存占用。万相团队的试验成果表现,在活动品质、视觉品质、作风跟多目的等 14 个重要维度跟 26 个子维度测试中,万相均到达了业界当先表示,而且斩获 5 项第一。IT之家附开源地点:Github:https://github.com/Wan-VideoHuggingFace:https://huggingface.co/Wan-AI魔搭社区:https://modelscope.cn/organization/Wan-AI