Workflow
悟界·Emu3.5
icon
Search documents
AI进化速递丨OpenAI计划2026年提交IPO申请
Di Yi Cai Jing· 2025-10-30 13:09
⑤亚马逊:AI超级集群Project Rainier已投入使用; ⑥智源发布多模态世界大模型悟界·Emu3.5,可实现跨场景具身操作; ⑦TrendForce:预估2026年AI服务器出货量将年增逾20%。 AI进化速递丨OpenAI计划2026年提交IPO申请 ①OpenAI计划2026年提交IPO申请,并于2027年上市; ②OpenAI发布全新安全推理模型gpt-oss-safeguard; ③英伟达与Palantir达成合作,推动AI实战化; ④微软CEO:公司今年AI总算力将提升逾80%; 微软CEO: 今年公司AI总算力将提升逾80% 亚马逊:Al集群Project Rainier已投入使用 ■ 智源发布多模态世界大模型悟界·Emu3.5 一次 :一财快讯 ...
世界模型有了开源基座Emu3.5,拿下多模态SOTA,性能超越Nano Banana
3 6 Ke· 2025-10-30 11:56
Core Insights - The article highlights the launch of the latest open-source multimodal world model, Emu3.5, developed by the Beijing Academy of Artificial Intelligence (BAAI), which excels in tasks involving images, text, and videos, showcasing high precision in operations like erasing handwriting [1][6][9]. Group 1: Model Capabilities - Emu3.5 demonstrates advanced capabilities in generating coherent and logical content, particularly in simulating dynamic physical worlds, allowing users to experience virtual environments from a first-person perspective [6][12]. - The model can perform complex image editing and generate visual narratives, maintaining consistency and style throughout the process, which is crucial for long-term creative tasks [15][17]. - Emu3.5's ability to understand long sequences and spatial consistency enables it to execute tasks like organizing a desktop through step-by-step instructions [12][22]. Group 2: Technical Innovations - The model is built on a 34 billion parameter architecture using a standard Decoder-only Transformer framework, unifying various tasks into a Next-State Prediction task [17][25]. - Emu3.5 has been pre-trained on over 10 trillion tokens of multimodal data, primarily from internet videos, allowing it to learn temporal continuity and causal relationships effectively [18][25]. - The introduction of the Discrete Diffusion Adaptation (DiDA) technology enhances image generation speed by nearly 20 times without compromising performance [26]. Group 3: Open Source Initiative - The decision to open-source Emu3.5 allows global developers and researchers to leverage a model that understands physics and logic, facilitating the creation of more realistic videos and intelligent agents across various industries [27][29].
世界模型有了开源基座Emu3.5!拿下多模态SOTA,性能超越Nano Banana
量子位· 2025-10-30 10:31
允中 发自 凹非寺 量子位 | 公众号 QbitAI 最新最强的开源原生多模态世界模型—— 北京智源人工智能研究院(BAAI)的 悟界·Emu3.5 来炸场了。 图、文、视频任务一网打尽,不仅能画图改图,还能生成图文教程,视频任务更是增加了物理真实性。 先感受一下它的高精度操作:一句话消除手写痕迹。 第一视角漫游动态3D世界: 要知道,现在AI迭代的速度,正在刷新所有人的认知。 尤其是在文生视频这条赛道上,几乎每个月都有新技术出来"搞事情"。 肉眼可见,AI视频一个比一个真,一个比一个长。 在火星上开卡丁车也很丝滑: 由于掌握了世界运行的内在规律,它不仅能像专业设计师一样,进行高精度、可控的图像编辑: but,先别急着鼓掌—— 真正的赛点,早已不是"像不像",而是"懂不懂"。 它知道桌子上的苹果被拿走后,那里应该变空吗?它明白你转身之后,背后的场景依然存在吗?如果答案是否定的,那再逼真的视频,也不过 是"高级的GIF"。 现在,致力于攻克这一终极难题的玩家,终于带着悟界·Emu3.5来了。 从官方放出的demo来看,Emu3.5生成的作品展现出极强的连贯性、逻辑性,尤其让AI 模拟动态物理世界 的能力又双叒增 ...