Wan 2.1

Search documents
三年跃迁中国AI凭什么逆袭美国?
3 6 Ke· 2025-06-26 02:29
Artificial Analysis是一家做 AI 能力测评的权威机构。 先看一些具体数据和案例。自从2022年ChatGPT发布后,中美AI之间的差距一度显得很大,但到了 2025年5月,这个差距已经缩小到不足三个月了。 这意味着,中国的AI实验室和企业在这些年里取得了巨大的进步。 这份报告盘点中国 AI 在全球的位置,顺便对比一下,中美在语言模型这块到底谁强一点。 01 DeepSeek R1(2025年5月)在Artificial Analysis Intelligence Index中评分68分;阿里巴巴的Qwen3 235B A22B评分47分。 相比之下:OpenAI的o3也是68分;Gemini 2.5 Pro则是67分,你看,中美两国在这方面的差距已经非常 小了。 中国是如何实现这一跨越的呢?简单来说:技术性能提升和战略上的突破。 帮助工程师和企业精准把握AI的能力,从而做出战略决策。它的方法是:用大量数据说话,做系统性 分析。 2025 年 6 月中期,它们发布了一份:《2025 年第二季度中国 AI 亮点报告》。 举个例子: 阿里巴巴发布的QwQ 32B Preview在2024年11月 ...
ICML 2025 | 视频生成模型无损加速两倍,秘诀竟然是「抓住attention的时空稀疏性」
机器之心· 2025-05-07 07:37
自 OpenAI 发布 Sora 以来,AI 视频生成技术进入快速爆发阶段。凭借扩散模型强大的生成能力,我们已经可以看到接近现实的视频生成效果。但在模型逼真度不 断提升的同时,速度瓶颈却成为横亘在大规模应用道路上的最大障碍。 当前最好的视频生成模型 Wan 2.1、HunyuanVideo 等,在单张 H100 GPU 上生成一个 5 秒的 720p 视频往往需要耗时 30 分钟以上。主要瓶颈出现在 3D Full Attention 模块,约占总推理时间的 80% 以上。 为了解决这个问题,来自加州伯克利和 MIT 的研究者们提出了联合提出了一种新颖的解决方案: Sparse VideoGen。 这是一种 完全无需重新训练模型 的视频生成加速方法。通过挖掘注意力机制中的 空间与时间稀疏性 ,配合 自适应稀疏选择与算子优化 ,成功将 推理时间减半 。令人惊讶的是,它生成的视频与 Dense Attention 方法相比, 几乎没有肉眼可见的差别 ,保持极高的像素保真度 (PSNR = 29)。Sparse VideoGen 也是第一个能够 达到这种级别的像素保真度的方法。 目前,Sparse VideoGen ...
阿里开源版Sora上线即屠榜,4070就能跑,免费商用
量子位· 2025-02-26 03:51
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 开源模型,还是得看杭州。 前脚发完QwQ-Max,阿里就在深夜开源了视频生成模型 Wan 2.1 ,14B参数直接 屠榜VBench ,什么Sora、Gen-3通通不是它的对手。 从官方Demo中看,复杂运动细节非常到位, 5个人一起跳hip-hop也能做到动作同步 。 而且在静态图像生成中都还是老大难问题的 文字 ,现在也被万相给攻克了。 当然了,14B的参数量说大不大,但在个人消费级显卡上本地部署还是比较吃力的。 不过14B (支持分辨率720P) 之外,还有一个1.3B的小号版本 (支持分辨率480P) ,在一块 4090上占用显存是8个多GB ,消耗时间4 分21秒。 如此观之,用12GB的 4070,也是能带动的 。 | | | | Computational Efficiency of Wan2.1 | | | | | --- | --- | --- | --- | --- | --- | --- | | | | | (time(s)/ peak memory(G)) | | | | | GPU | Model | Resolution | ...