云知声推出文档智能基础大模型“Unisound U1-OCR” 正式开启OCR 3.0时代

2月26日，云知声(09678)宣布正式推出文档智能基础大模型"Unisound U1-OCR"。作为首个工业级文档智能基座，该模型正式开启OCR3.0时代，在理解版面的基础上，进一步洞察文档深层语义，实现自动分类与业务级信息抽取，完成了从"字符感知"到"文档认知"的质的飞跃，标志着AI从单纯"识字"跃迁至"理解业务逻辑"。 Unisound U1-OCR是一款达到国际顶尖水平(SOTA)的文档智能理解模型，在多项权威测试中均获业界 SOTA表现，其核心优势在于突破了传统模型"只读文字、不懂排版"的瓶颈，能够像人类专家一样"看懂"复杂文档。为适应OCR3.0时代对于文档业务级结构化抽取的新要求，Unisound U1-OCR采用ViT+LLM架构，其中视觉编码器部分采用NaViT架构，实现文档分辨率动态处理，模型参数规模3B量级，兼顾模型计算效率与文档深层语义信息理解的能力要求。业务层面，模型立足于工业级场景需求，打造了精准溯源、业务融合、安全高效部署、超强适配四大核心能力，真正适配企业真实业务的全场景需求，实现从'读懂'到'执行'的业务落地。模型提出了多项创新举措：首创"语义驱动+动态聚 ...