视觉

Search documents
重磅直播!清华&博世开源SOTA性能纯血VLA:Impromptu-VLA告别双系统~
自动驾驶之心· 2025-07-01 12:58
论文链接:https://arxiv.org/abs/2505.23757v1 对于想入门的同学,建议扎实深度学习和计算机视觉基础,逐步了解自动驾驶各模块。多阅读前沿论文,并通过 开源项目动手实践,熟悉数据处理和模型训练流程。希望能为大家带来启发,期待与大家交流。 数据集pipeline: >>直播和内容获取转到 → 自动驾驶之心知识星球 项目主页:https://github.com/ahydchh/Impromptu-VLA 当前自动驾驶系统在城市和高速公路等结构化环境中取得了显著进展,但面对乡村小路、临时施工区、非标准交 通规则以及恶劣路况等"非结构化场景"时,其鲁棒性和安全性仍面临严峻挑战。现有大规模自动驾驶数据集主要 侧重于常规交通状况 ,导致在这些复杂多变的非结构化环境中缺乏专门的、大规模且精细标注的数据。为了弥 补这一关键空白,清华AIR联合博世中央研究院 提出并构建了 Impromptu VLA 框架,旨在提供一个开放权重和 开放数据的驾驶视觉-语言-动作模型。Impromptu VLA 是一个完全端到端、无中间感知表征的"纯血VLA"系统, 其从驾驶视频片段中直接提取多模态特征,并生成自然语 ...
爱威科技(688067)每日收评(07-01)
He Xun Cai Jing· 2025-07-01 09:29
趋势方向 爱威科技688067 时间: 2025年7月1日星期二 61.27分综合得分 较强 21.08 主力成本分析 21.76 元 元 20日主力成本 19.65 当日主力成本 21.54 元 5日主力成本 元 60日主力成本 周期内涨跌停 过去一年内该股 涨停 0次 跌停 0 次 技术面分析 21.62 K线形态 暂无特殊形态 资金流数据 短期压力位 21.28 短期支撑位 21.62 中期压力位 20.16 中期支撑位 股价突破短期压力位,短线有望走强; 股价突破中期压力位,中线有望走强 2025年07月01日的资金流向数据方面 | 主力资金净流出189.25万元 | | --- | | 占总成交额-9% | | 超大单净流入0.00元 | | 大单净流出189.25万元 | | 散户资金净流入134.78万 | 关联行业/概念板块 医疗器械 1.39%、机器视觉 -0.36%、人工智能 -0.29%、医疗器械概念 0.93%等 财务数据 最近的财报数据显示,该股于2025年07月01日 | 每股收益0.09元 | 营业利润0.06亿元 | | --- | --- | | 市盈率--- | 销售毛利率 ...
智能家居市场将成万亿风口 欧菲光持续创新技术把握市场机遇
Quan Jing Wang· 2025-07-01 06:14
欧菲光自研机电一体化全自动锁体,做到在满足一线头部品牌高性能、强稳定性的同时,很好地控制成 本,极大地推动智能门锁从半自动 机械 锁向全自动机电一体化智能锁的升级,从技术上给智能门锁赛 道带来更大的想象空间。 欧菲光还结合自身的光学产业 优势资源 ,不断发力3D感测及视觉方案,研发了包括ToF方案、结构 光、双目摄像头(双IR)、人脸&猫眼二合一等多种差异化视觉方案。2022年,公司发布首款VGA ToF 人脸识别 方案。该方案软、硬件均为公司自主研发,硬件采用了欧菲光自主研发的VGA分辨率ToF摄 像头模组,其投射点云数量高达30万,确保了欧菲光此款方案在安全系数方面实现关键突破,达到银联 金融级别的安全等级,并在行业头部客户率先量产。 欧菲光并没有局限于智能门锁单一零部件的研发制造,而是以指纹识别、3D感测及视觉方案为核心支 撑,通过自研加策略合作的方式,同时整合集团自身优势产业链,从指纹模组、3D Sensor、猫眼、锁 控板到ID/CMF、整锁设计上提供一站式服务,赋能智能门锁整机业务,打造整机研发设计和生产制 造。公司通过高质量的产品、定制化的服务和持续的技术支持,成功突破智能门锁行业头部客户。 随 ...
新股消息 | 瑞为技术递表港交所 公司在中国民航企业视觉智能产品市场排名首位
智通财经网· 2025-06-30 23:36
Core Viewpoint - Xiamen Ruiwei Information Technology Co., Ltd. (Ruiwei Technology) has submitted an application for listing on the Hong Kong Stock Exchange, with Huatai International, Jianyin International, and Agricultural Bank of China International serving as joint sponsors. The company ranks first in the visual intelligence product market for civil aviation enterprises in China, with a market share of 8.9% based on projected 2024 revenue [1]. Company Overview - The company is an artificial intelligence firm providing visual intelligence technology and products to enterprise clients, leveraging advanced AI algorithms and optical imaging technology. It offers a range of visual perception, cognition, and reasoning products, deeply applied in civil aviation, commercial spaces, and logistics [3][4]. - Ruiwei Technology is one of the first companies in the industry to focus on full-stack visual intelligence technology, integrating computer vision algorithms, optical imaging optimization, and computing power optimization [3]. Technical Capabilities - The company has over ten years of technical accumulation in the computer vision field, establishing a complete full-stack technology system that connects R&D to product application. Its core technical capabilities include foundational technology, fusion technology, and component technology [4]. - Ruiwei Technology has developed comprehensive technical components, including RecoSee, RecoAware, and RecoThink visual intelligence agents, which serve as general building blocks for various visual intelligence products across multiple application scenarios [4]. Research and Development - As of December 31, 2024, the company's R&D team consists of 107 members, accounting for approximately 50% of the total workforce. It has established an integrated product development system supporting the entire product lifecycle from market demand to delivery and operation [6]. - The company holds 168 registered patents, with 159 being independently developed and 9 co-developed with third parties. Additionally, it has 119 software copyrights [6]. Financial Performance - In terms of revenue, the company achieved approximately RMB 78.36 million, RMB 242 million, and RMB 395 million for the fiscal years 2022, 2023, and 2024, respectively. Correspondingly, the gross profit for these years was approximately RMB 12.31 million, RMB 98.82 million, and RMB 157 million. The company reported a profit of RMB 8.288 million in 2024 [6].
暑假打打比赛!PRCV 2025空间智能与具身智能视觉感知挑战赛正式启动~
自动驾驶之心· 2025-06-30 12:51
空间智能与具身智能视觉感知挑战赛 竞赛目的与意义 视觉感知是实现空间智能与具身智能的关键支撑技术,近年来在自动驾驶、智慧城市、机器人等场景中展现出 广泛应用前景。特别是强化学习等技术在智能体感知与决策中的深度融合,正在成为推动该领域突破的重要力 量。 • 推动高效、高质量的空间智能和具身智能技术的研究。 • 探索强化学习、计算机视觉、图形学等前沿方法的创新。 • 促进神经渲染、场景优化和机器人抓取等方向的应用。 竞赛组织方 组织者 :彭君然、陈磊、唐彦嵩、刘健、许修为、尹航、孙浩文、卫浩宇、刘旭阳、赵鑫 指导专家 :张兆翔、鲁继文、殷绪成 组织单位 :北京科技大学、清华大学、中国科学院自动化研究所、北京九章云极科技有限公司、塞弗卓盈 (上海)科技有限公司 赞助商及技术支持单位 :北京九章云极科技有限公司 媒体支持单位 :塞弗卓盈(上海)科技有限公司 联系电话 :13051937326 联系邮箱 : prcvcompetition@126.com 微信交流群 :报名邮件回复确定 参赛者要求 : 按自愿报名的原则,参赛团队和成员的组成可以为: 报名方式 以个人或团队方式均可通过邮件方式报名参赛,每个参赛队伍人员不 ...
从看见到看懂 机器人之“眼”看世界
Jin Rong Shi Bao· 2025-06-30 12:22
在银白色的操作平台上,一双与人类手掌差不多大小的黑色机械手上下翻动,时而五指打开、时而两指 收拢,看似僵硬的金属结构却灵巧得如同舞者的指尖。这一OpenCV实验箱&机械臂套件可在3D视觉 下,跟随人的指示做动作,让机械手360度灵活抓取。 人与机械手隔空同频的这一幕,如同科幻电影般的场景,正是《金融时报》记者在"活力中国调研行"期 间,在位于深圳的奥比中光科技集团股份有限公司(以下简称"奥比中光")展示厅中看到的互动画面, 精密机械与人类意识的默契协作,将想象中的未来图景化作可触摸的现实注脚。 机器人需要如同人类大脑般协调各部件运行并执行指令的"心",更需要感知周围世界的"眼"。通过AI视 觉与3D视觉,机器人可以获取环境感知能力,实现对物体识别、定位及动态场景的理解,进而完成精 准操作与自主决策,从"看见"到"看懂"。 而这一能力的赋予,正在通过政策与市场的双重驱动,成为机器人产业升级不可或缺的核心引擎。 在政策端,工信部等17个部门联合发布的《"机器人+"应用行动实施方案》在教育、社区服务、安全应 急、商贸物流等领域均明确机器视觉、视觉识别等技术与机器人技术的融合应用。 而3D视觉、AI视觉的发展,需要以 ...
奥比中光(688322):5月扭亏,“技术创新投入-商业成果转化”战略加速落地催化
ZHESHANG SECURITIES· 2025-06-30 09:43
证券研究报告 | 公司点评 | 光学光电子 奥比中光(688322) 报告日期:2025 年 06 月 30 日 1-5 月扭亏,"技术创新投入-商业成果转化"战略加速落地催化 ——奥比中光点评报告 投资要点 ❑ 事件:公司完成 2025 年 1-5 月主要经营数据初步核算工作,实现扭亏 1)根据公司未经审计的财务数据,2025 年 1-5 月实现营收 3.63 亿元,同比增长 117%; 实现归母净利润 0.55 亿元,同比扭亏。 2)公司"技术创新投入-商业成果转化"战略加速落地催化,全栈式研发能力和全领域 技术路线布局为技术迭代创新提供底层动力,在包括具身智能机器人、各类 AI 端侧硬件 升级等赛道,公司均具备明显的先发、技术及产品规模化等优势。 ❑ 公司技术实力雄厚,居人形机器人竞争格局最好的赛道之一,α+β共振有望业绩高增 1)β:人形机器人产业化提速,3D 视觉是竞争格局最优赛道之一 2025 年人形机器人行业进入内外双驱、日新月异的产业扩张期;我们预计 2030 年中美制 造业、家政业的人形机器人需求合计约 210 万台,市场空间约 3146 亿元。 机器人视觉承载 80%信息获取,目前国内外龙 ...
微软推出深度视频探索智能体,登顶多个长视频理解基准
机器之心· 2025-06-30 03:18
尽管大型语言模型(LLMs)和大型视觉 - 语言模型(VLMs)在视频分析和长语境处理方面取得了显著进展,但它们在处理信息密集的数小时长视频时仍显示出 局限性。 本文提出了一种新颖的智能体 Deep Video Discovery (DVD),通过将长视频分割为更短的片段并将其视作环境,利用 LLM 先进的推理能力来思考问题并自主规 划,选择具有适当参数的工具来从环境中逐步获取信息,最终回答问题。在最新的推理模型 OpenAI o3 的帮助下, DVD 以这一简洁有效的 agentic 框架 在非常具 有挑战性的 LVBench 上以 74.2% 的准确率大幅超越了之前的工作。这一工作将以 MCP Server 的形式开源。 | welcome to the leaderboard of the Lybench! Tou can prepare your submission by following the instructions; | | | | | | | | | | | | | | | | | | | --- | --- | --- | --- | --- | --- | --- | --- | - ...
用好视觉Attention局部性,清华、字节提出Token Reorder,无损实现5倍稀疏、4比特量化
机器之心· 2025-06-30 03:18
赵天辰,清华大学电子工程系高能效计算实验室研究生,研究方向主要是:面向视觉生成的高效算法,与软硬件协同设计。以下工作为赵天辰在字节跳动-Seed视 觉部门实习期间完成 近年来,随着视觉生成模型的发展,视觉生成任务的输入序列长度逐渐增长(高分辨率生成,视频多帧生成,可达到 10K-100K)。与输入序列长度呈平方复杂度 的 Attention 操作,成为主要的性能瓶颈(可占据全模型的 60-80% 的开销),有明显的效率优化需求。注意力的稀疏化(Sparse Attention)与低比特量化 (Attention Quantization)为常用的 Attention 优化技巧,在许多现有应用中取得优秀的效果。然而,这些方法在视觉生成模型中,在低稠密度(<50%)与低比特 (纯 INT8/INT4)时面临着显著的性能损失,具有优化的需求。 本文围绕着视觉任务的 "局部性"(Locality)特点,首先提出了系统的分析框架,识别出了视觉生成任务 Attention 优化的关键挑战在于 "多样且分散" 的注意力模 式,并且进一步探索了该模式的产生原因,并揭示了多样且分散的注意力模式,可以被统一为代表 "局部聚合" ...
10 人 1600 万美金 ARR,华人团队 OpenArt 用了这 11 个 AI 技术栈
投资实习所· 2025-06-29 11:53
华人团队做的 OpenArt,在 10 人团队的情况下已经将 ARR 做到了 1600 万美金,其 CEO Coco Mao 陆 陆续续分享了不少经验,这几点我觉得挺有价值: 1.定位:如何找准自己的定位 早期,OpenArt 面临的问题是定位:在一个快速演进的市场中,如何找到自己的定位?当时的 AI 图像生 成市场群雄并起——Midjourney 凭借其艺术化的输出赢得了设计师的青睐,DALL-E 以技术实力著称,而 无数新创公司都在争夺这个看似无限大的蛋糕。 最初的几个月里,我们每天都在问自己同一个问题:OpenArt 与 Midjourney 或 Ideogram 有什么不 同?说实话,在核心功能和技术层面,所有产品都非常相似。 从表面看,OpenArt 确实很难与竞争对手区分开来——都提供文本到图像的生成功能,都使用类似的 AI 模型,都面向创意工作者。但很快她意识到, 真正的差异化往往不在于技术本身,而在于用户体验和使用 场景的精准把握。 经过几个月的探索和用户反馈,OpenArt 团队确定了三个核心用户群体: 2.增长:SEO 驱动的爆发式增长 到 2024 年底,OpenArt 已经在 AI 图 ...