豆包・视频生成模型Seedance 1.0 lite

Search documents
字节最强多模态模型登陆火山引擎!Seed1.5-VL靠20B激活参数狂揽38项SOTA
机器之心· 2025-05-14 04:36
编辑:杨文 字节拿出了国际顶尖水平的视觉–语言多模态大模型。 5 月 13 日,火山引擎在上海搞了场 FORCE LINK AI 创新巡展,一股脑发布了 5 款模型和产品,包括豆包・视频生成模型 Seedance 1.0 lite、升级后的豆包 1.5・视 觉深度思考模型,以及新版豆包・音乐模型。同时,Data Agent 和 Trae 等产品也有了新进展。 其中,全场最吸睛的就是豆包 1.5・视觉深度思考模型(以下称 Seed 1.5-VL)。 相比于之前版本,Seed1.5-VL 具备更强的通用多模态理解和推理能力,不仅视觉定位和推理更快更准,还新增了视频理解、多模态智能体能力。 举个例子。仅需一张图,再来个提示词,Seed1.5-VL 就能精准识别观众、棒球、座椅、围栏等多种元素,还能正确分类并给出坐标。 再比如,喂它一段监控,问一句:「今天小猫干了哪些坏事?」几秒钟后,它就丢过来几段视频,「抓包」了小猫遛弯、玩球、巡视、搞破坏等各种「作案」现 场。 机器之心报道 尽管 Seed1.5-VL 的激活参数仅有 20B,但其性能可达到与 Gemini2.5 Pro 相当的水平,在 60 个公开评测基准中,有 ...