Workflow
对话阶跃星辰段楠:“我们可能正触及 Diffusion 能力上限”
AI科技大本营·2025-05-20 01:02

「具备更深层次理解能力的视觉领域基础模型(可能带来视觉的"GPT-3时刻"),有望在未来 1-2 年内出现。」 对话 | 唐小引,CSDN&《新程序员》执行总编 嘉宾 | 段楠, 阶跃星辰 Tech Fellow 责编丨张红月 出品 | AI 科技大本营(ID:rgznai100) 这场由 AI 驱动的视觉内容革新浪潮中,阶跃星辰的 Tech Fellow、前微软亚洲研究院资深研究员段楠,正站在探索的前沿。其团队在今年 2 月和 3 月 开源两个重要的视频生成模型 —— 30B 参数的文生视频模型 Step-Video-T2V,以及基于此训练的 30B 参数图生视频模型 Step-Video-TI2V , 在 AI 视频生成领域引起了广泛关注。 段楠清醒地指出,尽管当前的视频生成技术(如 Diffusion 模型)已能产出惊艳的视觉片段,但我们可能正触及其能力的"天花板",真正的、具备深度 理解能力的视频乃至多模态基础模型,其革命性的突破尚在孕育之中。 段楠,阶跃星辰Tech Fellow,带领研究团队构建以语言和视频为中心的多模态基础模型。此前,他曾任微软亚洲研究院资深首席研究员、自然语言计算团队研究经理( ...