UnityVideo
Search documents
统一视觉多模态!港科大团队发布视频生成模型,加速真实世界理解
具身智能之心· 2025-12-17 00:05
编辑丨 量子位 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区: 具身智能之心知识星球(戳我) ,这里包含所有你想要的! 下面是更多详细内容。 不仅能"听懂"物体的颜色纹理,还能"理解"深度图、人体姿态、运动轨迹…… 统一多模态多任务的视频生成模型来了。 来自港科大、港中文、清华大学和快手可灵的研究团队,最近提出了一个全新视觉框架—— UnityVideo 。 不仅模型生成质量更高,它还实现了 零样本泛化 ,对于从未见过的物体或场景,也能生成合理结果。 它通过统一训练多种视觉模态 (如深度图、光流、骨骼、分割掩码等) ,让模型更懂物理世界规律,生成的视频更真实、更可控。 从文本大模型到视觉大模型 当回顾大语言模型 (LLMs) 的发展历程时,会发现一个有趣的现象: GPT、Claude等模型之所以拥有强大的泛化和推理能力,很大程度上得益于它们统一训练了多种文本子模态——自然语言、代码、数学表达 式等。 这种多模态统一训练使模型能够在不同领域之间进行知识迁移,从而涌现出惊人的推理能力。 那么,视觉领域是否也存在同样的 ...
统一视觉多模态与多任务!快手可灵与港科大团队发布视频生成模型,加速真实世界理解
量子位· 2025-12-14 07:12
它通过统一训练多种视觉模态 (如深度图、光流、骨骼、分割掩码等) ,让模型更懂物理世界规律,生成的视频更真实、更可控。 不仅模型生成质量更高,它还实现了 零样本泛化 ,对于从未见过的物体或场景,也能生成合理结果。 下面是更多详细内容。 允中 整理自 凹非寺 量子位 | 公众号 QbitAI 不仅能"听懂"物体的颜色纹理,还能"理解"深度图、人体姿态、运动轨迹…… 统一多模态多任务的视频生成模型来了。 来自港科大、港中文、清华大学和快手可灵的研究团队,最近提出了一个全新视觉框架—— UnityVideo 。 从文本大模型到视觉大模型 当回顾大语言模型 (LLMs) 的发展历程时,会发现一个有趣的现象: GPT、Claude等模型之所以拥有强大的泛化和推理能力,很大程度上得益于它们统一训练了多种文本子模态——自然语言、代码、数学表达 式等。 这种多模态统一训练使模型能够在不同领域之间进行知识迁移,从而涌现出惊人的推理能力。 那么,视觉领域是否也存在同样的机会? 现有的视频生成模型虽然在合成质量上取得了令人瞩目的进步,但大多数模型仍然局限于单一的RGB视频学习——就像只用纯文本训练语言 模型一样,这限制了模型对物理 ...