Workflow
Multimodal Reasoning
icon
Search documents
阿里多模态推理模型开源!精准捕捉视频隐藏信息,三大杀手锏让AI更懂“人情世故”
Sou Hu Cai Jing· 2025-07-09 00:28
智东西 编译 | 程茜 编辑 | 心缘 AI能听懂你的"话外音"了? 智东西7月8日消息,近日,阿里通义实验室开源多模态推理模型HumanOmniV2。 HumanOmniV2通过引入强制上下文总结机制、大模型驱动的多维度奖励体系,以及基于GRPO的优化训练方法,实现了对多模态信息的全面理解,使得模 型不会错过图像、视频、音频中的隐藏信息,一定程度上规避其在全局上下文理解不足和推理路径简单上的问题。 如在生成最终答案前,模型会输出一个标签内的上下文概括,系统性分析多模态输入内容中的视觉、听觉、语音信号,为后面的推理过程提供依据。如下图 提问"女人为什么翻白眼",HumanOmniV2基于视频、音频等信息给出正确答案"她的翻白眼更像是对一个潜在敏感话题的夸张、俏皮的反应,非对其他人表 示不满"。 现阶段HumanOmniV2已开源。阿里通义团队还推出包含633个视频和2689个相关问题的评测基准IntentBench,在此之上,HumanOmniV2准确率达到 69.33%。 Hugging Face:https://huggingface.co/PhilipC/HumanOmniV2 IntentBench评 ...