语言模型

Search documents
上海交大最新!DyNaVLM:零样本、端到端导航框架
具身智能之心· 2025-06-22 10:56
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨 Zihe Ji等 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 出发点与优化目标 在自主智能体领域,导航是一项基础且关键的能力,它需要融合空间推理、实时决策以及对动态环境的适 应能力。尽管人类能在复杂环境中轻松导航,但在人工系统中复现这一能力仍面临巨大挑战。传统导航方 法常将问题分解为感知、推理、规划和控制等模块化组件,虽依赖专业算法处理子任务,但存在泛化性 差、可扩展性不足以及实际部署困难等问题,因其严重依赖特定任务的工程设计和僵化的流程。 近年来,视觉语言模型(VLM)的发展为导航领域带来了新的可能,它通过在单一框架内整合感知与推 理,为解决传统方法的弊端提供了新思路。然而,VLM在具身导航中的应用仍受限于空间粒度和上下文推 理能力的不足。基于此,本研究提出了DyNaVLM,这是一种零样本、端到端的导航框架,其核心目标是让 VLM无需微调或接触导航特定数据,就能直接作为导航策略使 ...
开发出火遍全球的新冠疫情地图的中国留学生,发表最新论文:利用AI大模型预测疫情
生物世界· 2025-06-22 08:17
编辑丨王多鱼 排版丨水成文 新冠大流行期间,一份实时更新 的" 全球新冠疫情数据可视化地图 "火遍全球,该疫情地图 通过结合自动化数据采集与人工审核机制,成为全球多个国家政府、 媒体引用最广泛的疫情追踪系统之一,单日访问量一度高达 20 亿。 这一地图的开发者是 约翰·霍普金斯大学的两位中国留学生 —— 董恩盛 、 杜鸿儒 。 近日 , 杜鸿儒 作为第一作者,在 Nature 子刊 Nature Computational Science 上发表了题为 : Advancing real-time infectious disease forecasting using large language models 的研究论文。 该研究开发了一款 多模态大型语言模型—— PandemicLLM ,通过融合多模态信息 (包括 文本形式的公共卫生政策以及基因组监测、空间和流行病学时间序列 数据 ) ,采用 人工智能与人类协作的提示词设计,来实时预测疾病传播。研究团队将该模型应用于美国的 COVID-19 疫情,预测性能显著优于现有模型。 该研究让 大语言模型 (LLM) 化身 疫情预报员 ,成功突破传统模型瓶颈, 不 ...
大模型到底是怎么「思考」的?第一篇系统性综述SAE的文章来了
机器之心· 2025-06-22 05:57
作者介绍:本篇文章的作者团队来自美国四所知名高校:西北大学、乔治亚大学、新泽西理工学院和乔治梅森大学。第一作者 束东与共同第一作者吴烜圣、赵海燕分别是上述高校的博士生,长期致力于大语言模型的可解释性研究,致力于揭示其内部 机制与 "思维" 过程。通讯作者为新泽西理工学院的杜梦楠教授。 在 ChatGPT 等大语言模型(LLMs)席卷全球的今天,越来越多的研究者意识到:我们需要的不只是 "会说话" 的 LLM,更是 "能解释" 的 LLM。我们想知道,这些庞大的模型在接收输入之后, 到底是怎么 "思考" 的? 为此,一种叫做 Sparse Autoencoder(简称 SAE) 的新兴技术正迅速崛起,成为当前最热门的 mechanistic interpretability(机 制可解释性) 路线之一。最近,我们撰写并发布了 第一篇系统性的 SAE 综述文章 ,对该领域的技术、演化和未来挑战做了 全面梳理,供关注大模型透明性、可控性和解释性的研究者参考。 论文题目: A Survey on Sparse Autoencoders: Interpreting the Internal Mechanisms of ...
大模型为何难成为「数学家」?斯坦福等揭示严谨证明中的结构性弱点
机器之心· 2025-06-22 04:26
另一方面,当前主流的大语言模型是在海量自然语言上训练出来的。它们虽然无法直接生成可被形式系统接受的机器检查证明,却在 "非形式化推理" 方面表现出色 —— 也就是说,它们往往能给出看似合理、直觉对路的答案,并模仿人类在解决问题初期的思维方 式。这种能力虽然不符合传统意义上的形式证明要求,但在探索性的数学过程中具有重要价值。 为此,斯坦福大学、加州大学伯克利分校与麻省理工学院的研究团队提出了一种创新方法:将不等式证明任务拆解为两个 "非形式化但 可验证" 的子任务,即 "界限估计" 和 "关系预测",并基于此构建了第一个奥林匹克级不等式证明基准数据集 ——IneqMath。这一框 架提供了一种介于完全形式化验证与自然语言生成之间的 "中间层",可以逐步审查模型的推理链条,从而判断其是否真正掌握了推理 结构,而不仅仅是在猜测答案。 这正是当前形式化数学所试图解决的问题。近年来,Lean、Coq 等系统为数学提供了严格可验证的推理机制,每一步推导都必须符合 逻辑规则,可被计算机检验。然而,这类系统对语句的表达精度要求极高,建模成本大、自动化程度有限,尤其在面对中学到奥数级别 的不等式问题时,很难做到规模化应用。 使 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能/场景/方法论全解析~
自动驾驶之心· 2025-06-22 01:35
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
广联达(002410) - 002410广联达投资者关系管理信息20250621
2025-06-21 13:35
证券代码:002410 证券简称:广联达 广联达科技股份有限公司投资者关系活动记录表 编号:2025-005 投资者关系活动 类别 √特定对象调研 □分析师会议 □媒体采访 □业绩说明会 □新闻发布会 □路演活动 □现场参观 □其他 (请文字说明其他活动内容) 活动参与人员 嘉实基金、泰康资产、天弘基金、中信资管、华商基金、高信百 诺、华夏久盈、博时基金、华安基金、财通资管、万家基金、中 信证券 时间 2025 年 6 月 19 日/6 月 20 日 地点 广联达信息大厦/广联达上海大厦 形式 现场 上市公司接待人 员姓名 董事会秘书冯健雄 行业 AI 部总经理李 江 交流内容及具体 问答记录 一、AI 情况介绍 由公司行业 AI 部总经理李江对广联达 AI 战略及场景落地做 综合介绍 二、互动问答 Q1:公司今年提出产业 AI,那做好产业 AI 需要具备哪些要 素以及公司具备的优势 答:从产业 AI 的定义来看,是指将人工智能技术与特定产业 的领域知识、业务流程、数据特性深度融合,以解决产业实际问 题、提升生产效率、优化资源配置、创造新价值的技术体系和应 用范式。做好产业 AI 有三个成功关键要素,一是高质 ...
CVPR'25 | 感知性能飙升50%!JarvisIR:VLM掌舵, 不惧恶劣天气
具身智能之心· 2025-06-21 12:06
以下文章来源于AI生成未来 ,作者AI生成未来 AI生成未来 . 领先的AIGC和具身智能、大模型技术交流社区,关注LLM、CV、深度学习、生成式等AI领域前沿技术 编辑丨具身智能之心 点击下方 卡片 ,关注" 具身智能之心 "公众号 >> 点击进入→ 具身 智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有 你想要的。 论文链接: https://arxiv.org/pdf/2504.04158 项目主页: https://cvpr2025-jarvisir.github.io/ Github仓库: https://github.com/LYL1015/JarvisIR Huggingface Online Demo: https://huggingface.co/spaces/LYL1015/JarvisIR 背景与动机 在自动驾驶等现实应用场景中,视觉感知系统常常受到多种天气退化(如雨、雾、夜间、雪)的影响。 传统的单任务方法依赖特定先验知识,而 all-in-one 方法只能解决有限的退化组合同时又存在严重的 领域差异,难以应对复 ...
技术圈热议的π0/π0.5/A0,终于说清楚是什么了!功能、场景、方法论全解析~
具身智能之心· 2025-06-21 12:06
点击下方 卡片 ,关注" 具身智能 之心 "公众号 作者丨具身智能之心 编辑丨具身智能之心 本文只做学术分享,如有侵权,联系删文 >> 点击进入→ 具身智能之心 技术交流群 更多干货,欢迎加入国内首个具身智能全栈学习社区 : 具身智能之心知识星球 (戳我) , 这里包含所有你想要 的。 最近很多同学询问π0、π0.5、A0都是啥?用在什么地方?能实现哪些功能?方法论有啥不同?前面 刚开始听到这些,也一头雾水,今天为大家梳理下。 π₀模型结构 原文:π0: A Vision-Language-Action Flow Model for General Robot Control π₀的核心架构基于 预训练视觉语言模型(VLM) 和 Flow Matching 技术,具体包含以下关键组件: VLM backbone 动作专家(Action Expert) 跨具身训练(Cross-Embodiment Training) 整合 7 种机器人、68 项任务、超 10,000 小时数据(含开源 OXE 数据集),通过权重调整处理不 同机器人的动作空间差异(如零填充低维动作向量)。 训练流程 基于 PaliGemma V ...
舍弃CUDA编程!CMU等用几十行代码将LLM编译成巨型内核,推理延迟可降6.7倍
机器之心· 2025-06-21 01:33
机器之心报道 编辑:杜伟 在 AI 领域,英伟达开发的 CUDA 是驱动大语言模型(LLM)训练和推理的核心计算引擎。 MPK 的易用性很强,你只需要几十行 Python 代码就能将 LLM 编译成一个高性能巨型内核,实现快速推理,整个过程无需 CUDA 编程。 不过,CUDA 驱动的 LLM 推理面临着手动优化成本高、端到端延迟高等不足,需要进一步优化或者寻找更高效的替代方案。 近日,CMU 助理教授贾志豪(Zhihao Jia)团队创新玩法,推出了一个名为 「Mirage Persistent Kernel(MPK)」的编译器,可以自动将 LLM 转化为优化的巨型 内核(megakernel),从而将 LLM 推理延迟降低 1.2 到 6.7 倍。 MPK 将 LLM 推理延迟推近硬件极限。在单个 A100-40GB GPU 上,MPK 将 Qwen3-8B 每个 token 的延迟从 14.5 毫秒 (vLLM/SGLang) 降低到 12.5 毫秒,逼近基于 内存带宽计算得出的 10 毫秒理论下限。 GitHub 地址:https://github.com/mirage-project/mirage/ ...
2025 年了,企业的 AI 采购预算都在怎么花?
机器之心· 2025-06-20 17:04
本文来自PRO会员通讯内容,文末关注「机器之心PRO会员」,查看更多专题解读。 a16z 近期发布 2025 年度的「企业如何采购 AI」主题报告,该报告基于对全球企业高管的深度访谈与广泛调 研,揭示了 2025 年企业在以 LLM 为代表的生成式 AI 的采购、部署与预算分配上的关键趋势。 目录 01. 为何企业的 AI 预算只增不减? 为什么企业在的 AI 支出一直在增加?企业的 AI 预算构成都有哪些变化?企业部署 AI 的目的在如何转变?... 02 . 货比三家,什么样的 LLM 能让企业掏钱? 为什么企业更看重 LLM 的「差异化」而非「商业化」?为什么开源模型越来越受欢迎?大小企业选择 LLM 的偏好有何区 别?... 03. 企业如何像采购传统软件一样采购 AI 模型? 企业现在采购 AI 模型都考虑哪些因素?外部基准对 AI 采购有什么影响?... ① 该报告是 a16z 的研究主题系列之一,其研究团队此前在 2024 年 2 月发布「企业构建和购买新一代人工智能的 16 项变革」。该报告从数十位《财富》500 强企业和顶级企业的领导者和 70 多位高管进行访谈和调查,得到了 16 项核心发 ...