看图猜位置不输o3！字节发布Seed1.5-VL多模态推理模型，在60个主流基准测试中拿下38项第一

一水发自凹非寺量子位 | 公众号 QbitAI 在60个主流基准测试中拿下38项第一！字节发布轻量级多模态推理模型Seed1.5-VL ，仅用 532M视觉编码器+200亿活跃参数就能与一众规模更大的顶尖模型掰手腕，还是能带图深度思考的那种。相关技术报告也第一时间公开了。整体而言，虽然是"以小博大"，但新模型在复杂谜题推理、OCR、图表理解、3D空间理解等方面表现出色。比如猜下图中有几只猫，人眼很容易误将地上的黑猫当成影子：同时也能用来解答复杂推理谜题，考公党有福了（bushi~ 还能用来玩"看图找茬"，速度和准确率双双胜于人类：当然，以上也基于其强大的OCR识别能力。即便是长度惊人、中英混杂的消费小票，也能分分钟转换成表格。那么它是如何做到的呢？ 532M视觉编码器 + 20B混合专家语言模型通过深扒技术报告，背后关键主要在于模型架构和训练细节。据介绍，Seed1.5-VL由以下三个核心组件组成： SeedViT：用于对图像和视频进行编码； MLP适配器：将视觉特征投射为多模态token；大语言模型：用于处理多模态输入并执行推理。模型支持多种分辨率的图像输入，并通过 ...