Workflow
小红书开源多模态大模型dots.vlm1:解锁图文理解与数学解题新能力
Sou Hu Cai Jing·2025-08-07 10:31

小红书的人文智能实验室(hi lab)近日宣布开源了其最新的多模态大模型dots.vlm1。这款模型建立在DeepSeek V3的基础上,并配备了小红书 自研的12亿参数视觉编码器NaViT,展现出强大的多模态理解与推理能力。 据hi lab介绍,dots.vlm1在多个视觉评测集上的表现已经接近当前领先的模型,如Gemini 2.5 Pro和Seed-VL1.5 thinking。特别是在MMMU、 MathVision、OCR Reasoning等基准测试中,dots.vlm1显示出卓越的图文理解与推理能力。它能理解复杂的图文交错图表,解析表情包背后的 含义,分析产品配料表差异,并能准确判断博物馆中文物和画作的名称及背景信息。 在文本推理任务上,dots.vlm1的表现大致与DeepSeek-R1-0528相当,显示出一定的数学和代码能力通用性。然而,在GPQA等更多样化的推理 任务上,dots.vlm1仍存在提升空间。尽管如此,dots.vlm1的整体性能已经相当可观,特别是在视觉多模态能力方面,已接近最佳性能 (SOTA)水平。 | 意在全 | | Qwen2.5VL-72B | Gemini2.5 ...