视觉

Search documents
紫东太初开源视觉神经增强方法,即插即用终结多模态幻觉 | ACL 2025
量子位· 2025-06-27 10:57
VHR团队 投稿 量子位 | 公众号 QbitAI 通过"视觉神经增强"机制,直接放大模型中的视觉关键注意力头输出,显著降低模型的幻觉现象。 中科院自动化所联合新加坡国立大学、东南大学等团队提出大模型幻觉的一种高效的解决方案VHR。 此前的主流方法主要通过对齐训练或输出层分布修正来缓解LVLMs的幻觉问题,但这些方法仅作用于模型的最终输出阶段, 未能深入干预其 内部表征和生成机制 ,因此难以实现高效且精准的幻觉抑制。 大型视觉语言模型(LVLMs)能够结合视觉和语言信息生成流畅的文本回答,但其输出常因过度依赖语言先验知识而非图像真实内容,导致 事实性错误。 在图1中,通过对照实验揭示语言先验与幻觉现象之间的关联。当给定图像并提示模型「请详细描述该图像」时,模型生成的描述中错误地包 含「椅子」和「杯子」这类图像中未出现的实体,呈现出典型的幻觉表现。 为了验证这种幻觉是否源于语言偏好,移除原始图像,重新提示模型根据此前生成的正确描述「图中有一张木桌,桌上有一个花瓶」进行补 全。结果显示,模型补全的内容与之前的幻觉部分显著重叠,这表明模型并非基于视觉依据进行推理,而是系统性地依赖语言共现模式来生成 内容。 这一现象 ...
特斯拉Robotaxi“上路”近一周,马斯克给无人驾驶出租车行业带来了什么?
Sou Hu Cai Jing· 2025-06-27 10:17
出品|搜狐科技 作者|常博硕 "未来在特斯拉车主不开车的时候,车辆可以变成共享出租车来赚钱。"马斯克在2016年HW2.0发布时画的饼,如今可能真的要实现了。 埃隆·马斯克曾公开表示,特斯拉的车队将融合Uber和Airbnb的模式。特斯拉车主可以在不使用车辆时,通过应用程序将其添加到自动驾驶车队中。车主将 获得收入,特斯拉则会抽取少量佣金。如今看来这一愿景说不定真的要实现了。 特斯拉Robotaxi究竟靠谱吗? 当地时间2025年6月22日(星期日),特斯拉在德克萨斯州奥斯汀正式启动了其Robotaxi(无人驾驶出租车)试运营服务 。埃隆·马斯克在X平台上兴奋地宣 布了这一消息,并表示乘客将支付4.20美元的固定费用 。这个特定的定价,一个带有"420"大麻文化暗示的数字,也体现了马斯克一贯的幽默感 。 此次初始部署规模有限,仅有10辆左右的2025款Model Y车型投入运营。首批体验目前采用邀请制,仅限选定一些网红、投资者以及特斯拉的粉丝参与。运 营范围被严格限制在奥斯汀的一个特定区域内,运营时间为美国中部时间上午6点至午夜12点。所有运营车辆的前排座位上都配备一名人类安全员,尽管这 名安全员不主动控制车 ...
第一篇具身领域论文应该怎么展开?
具身智能之心· 2025-06-27 09:41
EI/中文核心/毕业论文/申博等 点击下方 卡片 ,关注" 具身智能 之心 "公众号 还在为论文选题抓耳挠腮?被数据建模折磨到头秃?面对导师批注手足无措?别慌!具身智能之心,资深导师团 队在线 "救援",一站式解决你的论文烦恼! 【前沿论文辅导重磅上线!多模态大模型/VLA/3D感知/数据生成/视觉语言导航/机器人导航/具身智能等顶会 方向1V1定制化辅导】 CCF-A到CCF-C SCI一区到四区 你是否正在研究以下前沿领域却苦于突破瓶颈? 多模态大模型(视觉-语言预训练、跨模态推理) 视觉语言动作(VLA)(端到端、分层等) 视觉语言导航(VLN)(Embodied QA、指令跟随、场景理解) 机器人抓取与导航(Sim2Real、强化学习、3D场景建模) 具身智能体泛化(跨任务迁移、零样本适应、仿真环境构建) 3D高斯泼溅(3DGS)(实时渲染、动态场景建模、SLAM结合) 端到端具身智能体(决策闭环、多模态传感器融合) 具身合成数据生成(自动标注、域适应、数据增强) 为什么选择我们? ✅ 顶会/顶刊导师团队:来自CMU、Stanford、MIT等名校的PhD及大厂研究员,覆盖ICRA、NeurIPS、C ...
ICCV 2025不完全汇总(具身/自驾/3D视觉/LLM/CV等)
具身智能之心· 2025-06-27 09:41
【视频+解析】DriveArena: A Controllable Generative Simulation Platform for Autonomous Driving Boost 3D Reconstruction using Diffusion-based Intrinsic Estimation Epona: Autoregressive Diffusion World Model for Autonomous Driving SynthDrive: Scalable Real2Sim2RealSensor Simulation Pipeline for High-Fidelity Asset Generation and Driving DataSynthesis StableDepth:Scene-Consistent andScale-Invariant Monocular Depth CoopTrack: ExploringEnd-to-End Learning for EfficientCooperative Sequential Perception U-ViLAR: Uncertai ...
环球市场动态:人民币汇率短期或延续低波状态
citic securities· 2025-06-27 05:21
环球市场动态 人 民 币 汇 率 短 期 或 延 续 低 波 状 态 股 票 周四 A 股小幅下跌,但市场交易热 度持续;港股走弱,前一日领涨的 券商股回调;欧洲股市普遍上涨, 以色列伊朗局势缓解令情绪回暖; 美股三大指数齐涨,标指再度接近 历史新高,市场对潜在降息的乐观 预期表现正面。 外 汇 / 商 品 2025 年 6 月 27 日 123 ▪ 今年 6 月以来,人民币汇率呈现 "低波 + 韧性" 的特征,并基本实现 "三价合一"。归因来看,美元指数的趋 势性走弱、国内基本面托底和政策发力、央行稳汇率操作更加灵活、客盘结汇需求释放等成为人民币汇率韧性 的重要来源。往后看,美国对华存量关税对于出口的压力仍不可忽视,但对于汇率而言更为关键的在于国内消 费等政策的对冲力度、以及中美关税缓和期过后的中美经贸磋商进度。在央行灵活的稳汇率政策操作下,预计 人民币汇率短期或延续低波状态。 ▪ 重点新闻:中美签订关税谅解,美国将在中国交付稀土后取消贸易反制;美国下修第一季度 GDP,多位美联储 官员暗示 7 月不会降息;美国 5 月份商品贸易逆差意外扩大;美国持续申领失业救济金人数升至 2021 年 11 月以来最高; ...
AI 开始「自由玩电脑」了!吉大提出「屏幕探索者」智能体
机器之心· 2025-06-27 04:02
近期,吉林大学人工智能学院发布了一项基于强化学习训练的 VLM 智能体最新研究《ScreenExplorer: Training a Vision-Language Model for Diverse Exploration in Open GUI World》。它让视觉语言模型(VLM)真正学会了「自我探索 GUI 环境」。 论文地址:https://arxiv.org/abs/2505.19095 项目地址:https://github.com/niuzaisheng/ScreenExplorer 该工作带来三大核心突破: 作者简介:本文第一作者牛润良是吉林大学人工智能学院博士研究生,研究方向包括大模型智能体、强化学习,专注于 GUI Agent。通讯作者王琪为吉林大学人 工智能学院研究员,研究方向包括数据挖掘、大模型、强化学习。 迈向通用人工智能(AGI)的核心目标之一就是打造能在开放世界中自主探索并持续交互的智能体。随着大语言模型(LLMs)和视觉语言模型(VLMs)的飞速发 展,智能体已展现出令人瞩目的跨领域任务泛化能力。 而在我们触手可及的开放世界环境中,图形用户界面(GUI)无疑是人机交互最普遍 ...
3D VLA新范式!CVPR冠军方案BridgeVLA,真机性能提升32%
具身智能之心· 2025-06-26 14:19
更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 【导读】 中科院自动化所提出BridgeVLA模型,通过将3D输入投影为2D图像并利用2D热图进行 动作预测,实现了高效且泛化的3D机器人操作学习。实验表明,BridgeVLA在仿真和真实场景中 均展现出卓越的性能和数据效率,仅需3条轨迹即可在基础任务中达到96.8%的成功率。 近年来,视觉-语言-动作(VLA)模型在机器人操作任务中大放异彩,成为推动通用机器人操作的 重要引擎。 但现有的VLA模型,大多只以2D信息作为输入,且需要大量的机器人数据进行微调; 反观以PerAct,RVT-2为代表的3D操作策略,通常仅需要10条轨迹就能够取得不错的效果,因 此,一个很自然的想法是,是否能将现有的2D VLA升级为3D VLA,使其同时兼具2D VLA的效果 以及3D操作策略的效率? 作者丨 新智元 编辑丨 新智元 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 2D VLA的泛化,3D Policy的效率,这下全部打包带走! 缩小VLM和VLA之间的迁 ...
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 14:19
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
奥普特(688686)每日收评(06-26)
He Xun Cai Jing· 2025-06-26 09:58
奥普特688686 时间: 2025年6月26日星期四 65.55分综合得分 较强 趋势方向 主力成本分析 95.30 元 当日主力成本 94.42 元 5日主力成本 89.97 元 20日主力成本 85.65 元 60日主力成本 周期内涨跌停 过去一年内该股 涨停 0次 跌停 0 次 北向资金数据 | 持股量549.26万股 | 占流通比4.49% | | --- | --- | | 昨日净买入4.52万股 | 昨日增仓比0.037% | | 5日增仓比0.096% | 20日增仓比0.136% | 技术面分析 资金流数据 97.28 短期压力位 91.30 短期支撑位 97.28 中期压力位 85.75 中期支撑位 目前短线趋势不慎明朗,静待主力资金选择方向; 目前中期趋势不慎明朗,静待主力资金选择方向 K线形态 暂无特殊形态 2025年06月26日的资金流向数据方面 | 主力资金净流出1990.03万元 | | --- | | 占总成交额-18% | | 超大单净流出551.93万元 | | 大单净流出1438.10万元 | | 散户资金净流出168.60万 | 关联行业/概念板块 仪器仪表 -0.27 ...
中科通达(688038)每日收评(06-26)
He Xun Cai Jing· 2025-06-26 09:54
中科通达688038 趋势方向 主力成本分析 15.55 元 当日主力成本 15.27 元 5日主力成本 时间: 2025年6月26日星期四 48.59分综合得分 偏弱 15.56 元 20日主力成本 15.20 元 60日主力成本 周期内涨跌停 过去一年内该股 涨停 1次 跌停 中期压力位 14.84 中期支撑位 0 次 技术面分析 15.41 短期压力位 14.84 短期支撑位 16.58 股价突破短期压力位,短线有望走强; 目前中期趋势不慎明朗,静待主力资金选择方向 K线形态 ★红三兵★ 每日收盘价上移,表示可能见底回升 资金流数据 2025年06月26日的资金流向数据方面 | 主力资金净流出96.84万元 | | --- | | 占总成交额-2% | | 超大单净流入0.00元 | | 大单净流出96.84万元 | | 散户资金净流入190.41万 | 关联行业/概念板块 软件开发 1.14%、机器视觉 -0.49%、生物识别 0.47%、数字孪生 0.45%等 财务数据 最近的财报数据显示,该股于2025年06月26日 | 每股收益0.04元 | 营业利润0.04亿元 | | --- | --- | ...