人工智能推理生成

Search documents
国产SOTA新模型精准get“画(3+6)条命的动物” | 开源
量子位· 2025-06-21 03:57
金磊 整理自 凹非寺 量子位 | 公众号 QbitAI 生成图像 这件事, 会推理 的AI才是好AI。 举个例子,以往要是给AI一句这样的Prompt: (3+6)条命的动物。 我们人类肯定一眼就知道是猫咪,但AI的思考过程却是这样的: △ 虽然生成了猫,但思考过程不对 思考的过程还是把"(3+6)"里的数字分开来处理,并没有真正get到其背后 "九条命的动物=猫" 的本意。 以及像ChatGPT,还是执着于在图片里面展示数字: 究其原因,是因为当前主流的基于文本进行图像生成的方法往往依赖固定的文本编码器,仅能处理"纯文本"输入,难以自然接入图像、音频 等模态的信息。 同时,这类系统在应对"复杂世界知识"和"多步骤逻辑推理"方面表现乏力。 但就在最近,清华大学、腾讯ARC Lab、香港中文大学和香港大学联手提出了一个新大模型—— MindOmni ,显著增强了AI的 "推理生成 能力" 。 它不仅能理解复杂指令,还能基于图文内容展开连贯而可信的"思维链"(Chain-of-Thought, CoT),生成具备逻辑性与语义一致性的图像 或文本输出: △ 推理图像生成可视化结果对比 △ 对基于多模态用户输入的推理 ...