世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
量子位·2025-10-30 10:31
允中 发自 凹非寺 量子位 | 公众号 QbitAI 最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的 悟界·Emu3.5 来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。 先感受一下它的高精度操作:一句话消除手写痕迹。 第一视角漫游动态3D世界: 要知道,现在AI迭代的速度,正在刷新所有人的认知。 尤其是在文生视频这条赛道上,几乎每个月都有新技术出来"搞事情"。 肉眼可见,AI视频一个比一个真,一个比一个长。 在火星上开卡丁车也很丝滑: 由于掌握了世界运行的内在规律,它不仅能像专业设计师一样,进行高精度、可控的图像编辑: but,先别急着鼓掌—— 真正的赛点,早已不是"像不像",而是"懂不懂"。 它知道桌子上的苹果被拿走后,那里应该变空吗?它明白你转身之后,背后的场景依然存在吗?如果答案是否定的,那再逼真的视频,也不过 是"高级的GIF"。 现在,致力于攻克这一终极难题的玩家,终于带着悟界·Emu3.5来了。 从官方放出的demo来看,Emu3.5生成的作品展现出极强的连贯性、逻辑性,尤其让AI 模拟动态物理世界 的能力又双叒增 ...