Workflow
语言模型
icon
Search documents
今年大火的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-26 14:19
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
北大发布学术搜索评测ScholarSearch:难倒一众DeepResearch的“开卷考试”
量子位· 2025-06-26 14:11
北京大学DS-Lab团队 投稿 量子位 | 公众号 QbitAI 北京大学DS-Lab 发布 ScholarSearch, 旨在对LLMs的检索、信息整合及推理能力进行综合性、极限性考验。 研究团队招募了来自北京大学各个学院的本科和研究生志愿者,并为他们提供了集中培训。志愿者从公开可访问的在线出版物和网站中选择材 料,以制定需要网络搜索解答的学术问题。 LLMs能当科研助手了? 北大出考题,结果显示:现有模型都不能胜任。 北京大学DS-Lab发布ScholarSearch,这是首个专门用于评估大语言模型在学术研究中复杂信息检索能力的数据集,包含223道高难度的学 术检索题目及其答案。 它对具备联网搜索能力的代表性模型及纯推理模型进行了评估,结果显示,顶尖的纯推理模型,如GPT-4.1、DeepSeek-R1,在处理这些问 题时准确率普遍低于9%。 具备搜索功能的模型,相较于其无搜索能力的版本,准确率有显著提升,例如,GPT-4o-mini的准确率提升超过四倍。 尽管浏览能力带来了显著改进,但即便是最先进的搜索增强型模型,如 GPT-4o-search-preview,其准确率仅为18.83% 。 方法 Ope ...
张亚勤:未来电车品牌可能出现整合,2030年将有10%新车具备 L4 级自动驾驶能力
Sou Hu Cai Jing· 2025-06-26 10:04
出品|搜狐财经 作者|汪梦婷 他还谈到生成式人工智能和大语言模型的发展,帮助自动驾驶解决了两大核心难题: 第一是海量数据处理与理解,无论测试里程多长,总会遇到罕见或未曾见过的场景。需要更多此类数据来训练系统,但在实际测试中又极力避免事故。生成 式AI可以模拟这些罕见场景,生成大量训练数据。 第二是端到端训练,以前自动驾驶系统由多个模块组成,规则繁多。现在,借助深度学习和大模型,可以构建端到端的决策模型,简化大部分规则。虽然仍 需保留一些核心规则确保安全边界,但整体迭代速度大大加快。视觉模型和行动模型仍是挑战,但正越来越接近目标,市场动力也在增强。 基于对行业发展的乐观判断,张亚勤预测,到 2030 年,新车出货量中将有 10% 具备 L4 级自动驾驶能力,服务于自动驾驶出租车和消费者市场。 "我们在自动驾驶领域已经取得了显著进展。这项技术始于十年前,引了数百亿美元的投资。在机器人出租车(Robotaxi)方面,规模化进步巨大,并已在 多个城市进行商业化尝试,如旧金山、洛杉矶、奥斯汀、东京以及特斯拉所在地。"张亚勤称。 他谈到,在中国,百度的Apollo Go系统投入时间最长,其在武汉的试运营非常成功,如今已有 ...
ChatGPT越用人越傻?
虎嗅APP· 2025-06-25 15:06
以下文章来源于APPSO ,作者发现明日产品的 APPSO . AI 第一新媒体,「超级个体」的灵感指南。 #AIGC #智能设备 #独特应用 #Generative AI 本文来自微信公众号: APPSO ,作者:十二,原文标题:《ChatGPT 越用人越傻? MIT 最新实验 揭秘,过度依赖 AI 大脑活跃度显著降低》,题图来自:AI生成 长期依赖 AI 写作,大脑会变傻吗? 麻省理工学院媒体实验室做了这样一场实验。2025 年初,一名大学生坐在麻省理工学院媒体实验室 里,佩戴着复杂的脑电波 (EEG) 头盔,头上缠绕着银灰色的神经电极,32 个冷却凝胶点精准贴合 头皮。 他面前摆着一台笔记本电脑。在接下来的 20 分钟里,他需要从一组美国版高考 SAT 写作真题中挑 出一个,撰写一篇短文。 期间,他可以向电脑屏幕上的 ChatGPT 提问,但禁止调用其他软件,而戴在头顶上的 EEG 设备则 会精准记录他考试过程的脑电波。 在麻省理工学院媒体实验室研究科学家 Nataliya Kosmyna 团队的统筹下,总共 54 名来自哈佛、 MIT、塔夫茨的大学生陆续参与了这场写作实验。 结合脑电图神经成像、NLP ...
8B模型可以超过GPT-4o!并行KV Cache压缩支持的128K长度外推方法ParallelComp
机器之心· 2025-06-25 06:50
作者熊璟,香港大学一年级博士生,师从黄毅教授和孔令鹏教授。已在 ICLR、ICML、NeurIPS、ACL、EMNLP、TMLR等顶级会议/期刊发表论文,研究方向 为高效大语言模型推理与自动定理证明。担任NAACL、EMNLP、ACL、ICML、ICLR、NeurIPS、COLING等会议审稿人。个人主页: https://menik1126.github.io/ 引言:大模型长文本推理的瓶颈与突破 随着大语言模型(LLMs)能力日益提升,AI 对超长文本的理解和处理需求也变得前所未有地重要。然而,目前主流 LLM 虽然依赖旋转位置编码(RoPE)等机 制,在训练阶段能高效处理 4K-8K tokens 级别的上下文,但一旦推理阶段外推遇到如 128K 以上长度的长文本时,模型往往受到显存瓶颈的限制和注意力下沉 (attention sink) 等问题影响,采用常规的文本截断方案容易出现信息遗失,这极大限制了大模型在实际场景中的应用拓展。 业界目前尝试的处理长文本的高效推理主要的瓶颈有两个, 一个是位置编码的长度外推, 再一个是长度外推中的内存瓶颈。 目前的位置编码包括两类:一是基于频率区分的 NTK 插值方 ...
如何做到在手机上实时跑3D真人数字人?MNN-TaoAvatar开源了!
机器之心· 2025-06-25 00:46
TaoAvatar 是由阿里巴巴淘宝 Meta 技术团队研发的 3D 真人数字人技术,这一技术能在手机或 XR 设备上实现 3D 数字人的实时渲染以及 AI 对话的强大 功能,为用户带来逼真的虚拟交互体验。 它是如何实现的呢?本文将为您揭秘 TaoAvatar 背后的黑科技!同时在今天,我们正式宣布开源了 3D 真人数字人应用:MNN-TaoAvatar!目前应用源 码已同步发布在 MNN 的 GitHub 仓库,开发者可自行下载安装和体验,欢迎大家和我们一起交流讨论,共同探索 AI 数字人技术的无限可能。 什么是 TaoAvatar? TaoAvatar 是淘宝在数字人技术领域取得的最新突破,更多详细的研究成果已经发表在相关论文。 论文标题:TaoAvatar: Real-Time Lifelike Full-Body Talking Avatars for Augmented Reality via 3D Gaussian Splatting 论文地址:https://arxiv.org/abs/2503.17032v1 开源地址: https://github.com/alibaba/MNN/blob/ ...
AI Lab最新InternSpatia:VLM空间推理数据集,显著提升模型能力
具身智能之心· 2025-06-24 14:09
背景与动机 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 当前视觉语言模型(VLMs)在空间推理任务(如物体位置/大小比较、多视角关系理解)中存在显著不 足。现有数据集存在三大局限: 点击下方 卡片 ,关注" 具身智能 之心 "公众号 核心贡献 作者丨 Nianchen Deng等 1. InternSpatial数据集 编辑丨具身智能之心 规模与结构 : 指令多样性 :支持19种指令格式(Table 1对比) 1. 场景单一性 :数据源集中于室内/室外场景(如SpatialVLM、OSD),缺乏驾驶、具身导航等多样化环 境; 2. 指令格式受限 :仅支持自然语言或区域掩码(如SpatialQA仅用文本,OSD依赖掩码),难以覆盖真实 应用中的多样化查询形式; 3. 多视角监督缺失 :现有数据聚焦单图推理(占比超90%),缺乏跨视角时空关系建模能力。 视觉格式 :原始图/带边界框图/掩码图/编号物体图(Figure 2示例) 1200万QA对(950万单视图 + ...
具身领域的目标导航到底是什么?从目标搜索到触达有哪些路线?
具身智能之心· 2025-06-24 14:09
目标驱动导航,赋予机器人自主完成导航目标 具身导航作为具身智能的核心领域,涉及语言理解、环境感知、路径规划三大技术支柱。目标驱动导航(Goal-Oriented Navigation)通过赋予机器人自主决策能 力,是具身导航中最具代表性的方向。 目标驱动导航要求智能体在陌生的三维环境中,仅凭目标描述(如坐标、图片、自然语言)等,即可自主完成环境探索与 路径规划。 与传统视觉语言导航(VLN)依赖显式指令不同,目标驱动导航系统需要实现从"听懂指令走对路"到"看懂世界自己找路"的跃迁:当人类下达"去厨房拿可乐"的指 令时,机器人需自主完成语义解析(识别厨房空间特征与可乐视觉属性)、环境建模(构建家居场景的空间拓扑)以及动态决策(避开移动的人类或宠物),这 背后凝聚着计算机视觉、强化学习与3D语义理解的交叉突破。 目标驱动导航技术已在多个垂直领域实现产业化落地。在终端配送场景中,该技术与社交导航算法结合,使机器人具备应对动态环境和人际交互的能力:美团无 人配送车通过动态路径重规划在复杂城市环境中执行递送任务,Starship Technologies的园区配送机器人已在欧美高校和社区部署。在医疗、酒店及餐饮场景,嘉 ...
穆尧团队最新!RoboTwin 2.0:用于鲁棒双臂操作的可扩展数据基准
自动驾驶之心· 2025-06-24 12:41
以下文章来源于具身智能之心 ,作者Tianxing Chen等 具身智能之心 . 与世界交互,更进一步 点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Tianxing Chen等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 天行和muyao大佬团队出品的2.0工作,看看有哪些创新点和惊喜吧~ Webpage: https://robotwin-platform.github.io/ arXiv:https://arxiv.org/abs/2506.18088 Code: https://github.com/RoboTwin-Platform/RoboTwin Document: https://robotwin-platform.github.io/doc/ Title:RoboTwin 2.0: A Scalable Data Generator and Benchmark with Strong Domain Rando ...
一文读懂美国AI之战--“科技五巨头”与“AI三小龙”的战争
硬AI· 2025-06-24 12:28
Meta展开疯狂人才争夺战,凸显美国AI军备竞赛的竞争激烈程度。传统科技巨头各有优劣:苹果硬件优势仍存但AI落 后;谷歌基础设施领先但搜索业务受威胁;微软与OpenAI关系紧张;亚马逊后发制人潜力巨大。AI新贵中,OpenAI主导 消费市场,Anthropic专攻开发者,xAI处境最艰难,战略分化明显。 硬·AI 作者 | 董 静 苹果、谷歌、Meta、微软和亚马 逊这五大科技巨头面临着来自 OpenAI、Anthropic和xAI 等"AI三小龙"的 挑战,各家公司都在争夺这个可能重新定义整个科技产业的新时代的主导权。 Meta首席执行官扎克伯格近期的疯狂招聘行动揭示了这场竞争的激烈程度 。据 华尔街见闻此前文章提及 ,Meta首席执行官扎克伯格正展开疯狂的人才争夺战,亲自联系数百名研究人员加入其新成立的"超级智 能"实验室,给单个人才开出的薪酬甚至达到1亿美元,凸显该公司在AI竞赛中的焦虑。 传统科技巨头与AI新贵之间的博弈不仅关乎技术领先地位,更直接影响着各自的核心商业模式。对于谷歌而 言,ChatGPT等对话式AI对其搜索业务构成颠覆性威胁;而对苹果来说,AI更多是增强其设备体验的补充工 具。这种差异 ...