Workflow
视频模型空间推理能力
icon
Search documents
视频模型也能推理,Sora2推理能力超过GPT-5
量子位· 2025-12-05 08:04
DeepWisdom团队 投稿 量子位 | 公众号 QbitAI 视频模型能不能通过生成视频来解决推理问题?—— 答案是 能 。尤其在空间类任务(比如走迷宫)上,比图文模型更擅长,更稳。 DeepWisdom研究团队提出: 视频生成模型不仅能画画,更能推理 。 它们通过生成连续的视频帧来进行时空规划,这种能力在处理复杂空间任务时,甚至超越了GPT-5和Gemini 2.5 Pro等顶尖的多模态大模 型。 | Method | | | EM (1) | | | | | SR (1) | | | | | PR (↑) | | | | | SD (1) | | | | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | --- | | | Base | Irreg | Trap | 3D | Soko | Base | Irreg | Trap | 3D | Soko | Base | Irreg | Trap | 3D | So ...