Workflow
Manzano多模态人工智能模型
icon
Search documents
苹果发布多模态AI模型Manzano,实现“看图”与“绘图”高效融合
Huan Qiu Wang Zi Xun· 2026-01-15 07:19
【环球网科技综合报道】1月15日消息,据AIBase报道,苹果公司近日发表重磅研究论文,正式推出名 为"Manzano"的多模态人工智能模型。该模型创新性地实现了"视觉理解"与"文本生成图像"两大核心功 能的接近无损融合,为多模态AI技术发展注入新动力。 在AI领域,兼顾图像理解与图像生成两大任务长期面临技术瓶颈。图像理解需依赖连续数据流,而图 像生成则更需要离散数据块,传统模型因采用单一处理架构,往往难以平衡两项任务的性能,存在"看 得懂画不出"或"画得好理解偏"的问题。 来源:环球网 Manzano模型通过创新的三段式架构成功破解这一难题。首先由"混合视觉分词器"同步生成连续与离散 两种视觉表示,既满足图像理解的需求,又为图像生成奠定基础;随后借助大语言模型(LLM)精准 预测图像语义内容,确保对指令的准确把握;最后由"扩散解码器"完成像素级渲染,保障生成图像的高 质量。这一架构设计让模型在保留强大视觉理解能力的同时,具备了精细的图像生成能力,还能胜任深 度估计、风格迁移、图像修复等复杂任务。 测试数据显示,在处理"一只鸟在大象下方飞翔"这类反直觉、违背物理常识的复杂指令时,Manzano的 逻辑准确性与 ...