看图猜位置不输o3!字节发布Seed1.5-VL多模态推理模型,在60个主流基准测试中拿下38项第一
量子位·2025-05-14 06:07
一水 发自 凹非寺 量子位 | 公众号 QbitAI 在60个主流基准测试中拿下38项第一! 字节发布 轻量级多模态推理模型Seed1.5-VL ,仅用 532M视觉编码器+200亿活跃参数 就能与一众规模更大的顶尖模型掰手腕,还是能带 图深度思考的那种。 相关技术报告也第一时间公开了。 整体而言,虽然是"以小博大",但新模型在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色。 比如猜下图中有几只猫,人眼很容易误将地上的黑猫当成影子: 同时也能用来解答复杂推理谜题,考公党有福了(bushi~ 还能用来玩"看图找茬",速度和准确率双双胜于人类: 当然,以上也基于其强大的OCR识别能力。即便是长度惊人、中英混杂的消费小票,也能分分钟转换成表格。 那么它是如何做到的呢? 532M视觉编码器 + 20B混合专家语言模型 通过深扒技术报告,背后关键主要在于 模型架构 和 训练细节 。 据介绍,Seed1.5-VL由以下三个核心组件组成: SeedViT:用于对图像和视频进行编码; MLP适配器:将视觉特征投射为多模态token; 大语言模型:用于处理多模态输入并执行推理。 模型支持多种分辨率的图像输入,并通过 ...