Workflow
One Vision
icon
Search documents
Cognex (CGNX) 2025 Investor Day Transcript
2025-06-10 14:00
Cognex (CGNX) 2025 Investor Day June 10, 2025 09:00 AM ET Speaker0 Good morning, everyone. Welcome to Cognex's twenty twenty five Investor Day. We're thrilled to have you with us, whether you're joining us here in Natick or tuning in via webcast. My name is Grier Aviv, and I'm the new head of investor relations here at Cognex. So just for housekeeping purposes, the full presentation is available on the investor relations website, and a recording will be posted after the event. If everyone in the room could ...
全面评估多模态模型视频OCR能力,Gemini 准确率仅73.7%
量子位· 2025-05-30 07:10
MME-VideoOCR团队 投稿 量子位 | 公众号 QbitAI 多模态大模型(MLLM)在静态图像上已经展现出卓越的 OCR 能力,能准确识别和理解图像中的文字内容。 然而,当应用场景从静态图像拓展至 动态视频 时,即便是当前最先进的模型也面临着严峻的挑战。 MME-VideoOCR 致力于系统评估并推动MLLM在视频OCR中的感知、理解和推理能力。 主要贡献如下: 构建精细的任务体系: 高质量、大规模数据集: 包含了 1,464 个精选视频片段,覆盖不同的分辨率、时长与场景。 构建了 2,000 条高质量、经人工标注的问答对,确保评测的精确性。 揭示当前 MLLM 的能力边界与局限: 研究背景 视频作为一种信息密度更高、场景更复杂的模态,其 OCR 任务的难度远超静态图像: 1 运动模糊、光影变化、视角切换以及复杂的时序关联 等视频的动态因素,都对 MLLM 的视频文字识别构成了显著的障碍。 2 视频中的 文字信息形式复杂多样 ,既可能出现在画面主体、背景场景,也可能以屏幕注释、水印或弹幕的方式存在。这要求模型能够建立 稳定的时空视觉-文本关联,以实现对分布在不同位置与时间段文字信息的准确识别、整合与 ...