Manzano多模态人工智能模型 - filings, earnings calls, financial reports, news - Reportify

Manzano多模态人工智能模型

Search documents

苹果发布多模态AI模型Manzano，实现“看图”与“绘图”高效融合

Huan Qiu Wang Zi Xun· 2026-01-15 07:19

【环球网科技综合报道】1月15日消息，据AIBase报道，苹果公司近日发表重磅研究论文，正式推出名为"Manzano"的多模态人工智能模型。该模型创新性地实现了"视觉理解"与"文本生成图像"两大核心功能的接近无损融合，为多模态AI技术发展注入新动力。在AI领域，兼顾图像理解与图像生成两大任务长期面临技术瓶颈。图像理解需依赖连续数据流，而图像生成则更需要离散数据块，传统模型因采用单一处理架构，往往难以平衡两项任务的性能，存在"看得懂画不出"或"画得好理解偏"的问题。来源：环球网 Manzano模型通过创新的三段式架构成功破解这一难题。首先由"混合视觉分词器"同步生成连续与离散两种视觉表示，既满足图像理解的需求，又为图像生成奠定基础；随后借助大语言模型（LLM）精准预测图像语义内容，确保对指令的准确把握；最后由"扩散解码器"完成像素级渲染，保障生成图像的高质量。这一架构设计让模型在保留强大视觉理解能力的同时，具备了精细的图像生成能力，还能胜任深度估计、风格迁移、图像修复等复杂任务。测试数据显示，在处理"一只鸟在大象下方飞翔"这类反直觉、违背物理常识的复杂指令时，Manzano的逻辑准确性与 ...

多模态AI技术

Manzano多模态人工智能模型

多模态AI技术

Manzano多模态人工智能模型