华为开源7B多模态模型,视觉定位和OCR能力出色,你的昇腾端侧“新甜点”来了
量子位·2026-01-05 05:00

允中 发自 凹非寺 量子位 | 公众号 QbitAI 7B量级模型,向来是端侧部署与个人开发者的心头好。 轻量化特性让它能灵活适配各类终端场景,而强劲性能又能覆盖图像信息抽取、文档理解、视频解析、物体定位等高频需求。 刚刚,华为重磅推出 开源新玩家openPangu-VL-7B ,直接瞄准这一核心场景精准发力。 昇腾原生的模型结构,让openPangu-VL-7B的推理性能极具性价比: 720P图像在单张Ascend Atlas 800T A2卡上 首字模型推理时延 (ViT与LLM模型时延和) 仅160毫秒 ,能够进行5FPS的实时推理; 训练 阶段的MFU更是达到42.5% 。 更值得关注的是,模型 在预训练阶段完成了3T+tokens的无突刺集群长稳训练 ,为开发者使用昇腾集群提供了极具价值的实践参考。 官方提供的cookbook也展现了模型在这些领域的优异能力。 比如我们给模型一张菜品图,让模型找到一共有多少个樱桃番茄,模型能够点出所有的位置并正确计数。 给模型一张年报截图,模型也能将其转变为markdown格式,省去了人工摘录的痛苦。 | (人民币百万元) 2024年 2023年 同比变动 | | ...