语言模型

Search documents
华为诺亚VLM长程具身导航: 全局-自记忆映射与3大记忆模块解析
理想TOP2· 2025-04-23 13:34
以下文章来源于深蓝具身智能 ,作者深蓝学院-具身君 深蓝具身智能 . 深蓝学院旗下专注于具身智能与大模型的资讯与干货分享 "智能体不应被语言或视角束缚, 记忆与感知的融合才是自由导航的钥匙" 介绍本文具体工作前,先一起回顾一下 现有VLN的分类,如表1所示,大致分为 三类 :基于大语言模型(LLM)的导航、基于价值地图的导航和基于 视觉语言模型(VLM)的导航。 | सेंड | 说明 | 方法 | 优点 | 缺点 | | --- | --- | --- | --- | --- | | 基于LLM的 导航 | 构建全局记忆地 图,用自然语言 | LFG | 维护全局地 | 缺乏高维语义信 息, 削弱空间推理 | | | 描述候选目标点 | VoroNav | 图,使用高 | | | | | ESC | | 能力 | | | 位置,使用LLM生 成行动决策 | OpenIMNav | 级推理 | | | 基于价值地 | 根据自我视角观 察计算全局价值 | VLFM | 解决长时导 | 价值地图基于局部 观察,缺乏全局视 | | 图的导航 | 函数,根据生成 | InstructNav | 航的记忆遗 | 角,导 ...
AI动态汇总:openAI发布GPT-4.1,智谱发布GLM-4-32B-0414系列
China Post Securities· 2025-04-23 07:54
- GPT-4.1 significantly improved coding capabilities, achieving 54.6% in SWE-bench Verified tests, outperforming GPT-4o by 21.4% and GPT-4.5 by 26.6%[12][13][15] - GPT-4.1 demonstrated enhanced instruction-following ability, scoring 38.3% in Scale's MultiChallenge benchmark, a 10.5% improvement over GPT-4o[12][13][17] - GPT-4.1 achieved new SOTA in long-context understanding, scoring 72.0% in Video-MME benchmark, surpassing GPT-4o by 6.7%[12][13][22] - GLM-4-32B-0414 utilized 15T high-quality data for pretraining and applied reinforcement learning techniques to improve instruction-following, engineering code, and function-calling capabilities[26][28][30] - GLM-Z1-32B-0414 enhanced mathematical and logical reasoning through stack-sorting feedback reinforcement learning, significantly improving complex task-solving abilities[31][33] - GLM-Z1-Rumination-32B-0414 focused on deep reasoning and open-ended problem-solving, leveraging extended reinforcement learning and search tools[34] - Seed-Thinking-v1.5 adopted MoE architecture with 200B parameters, achieving 86.7% on AIME 2024 and 55.0% on Codeforces benchmarks, showcasing strong STEM and coding reasoning capabilities[35][37][41] - Seed-Thinking-v1.5 employed dual-track reward mechanisms for training, combining verifiable and non-verifiable data strategies to optimize model outputs[36][38][40] - GPT-o3/o4-mini introduced visual reasoning into the chain of thought (CoT), achieving 96.3% accuracy in V* benchmark, marking a major breakthrough in multimodal reasoning[42][46][48] - Video-R1 model applied T-GRPO algorithm to incorporate temporal reasoning in video tasks, achieving 35.8% accuracy in VSI-Bench, surpassing GPT-4o[63][65][68] - Pangu Ultra, a dense model with 135B parameters, achieved top performance in most English and all Chinese benchmarks, rivaling larger MoE models like DeepSeek-R1[69][73][74]
我悟了如何与AI说话!谷歌 69 页官方提示词秘籍全解析,中文版免费下载
AI科技大本营· 2025-04-22 10:26
(You don't need to be a data scientist or a machine learning engineer – everyone can write a prompt.) 作者 | 王启隆 出品 | CSDN(ID:CSDNnews) 最近,Google 官方发布了一份长达 69 页的 【Prompt Engineering 白皮书】 ,可以说是目前最系统、最权威的"AI 沟通指南"了。我们也是第一时 间翻译好了这本书,准备 【免费】 送给大家! 怎么拿?很简单, 看完这篇文章,参与文末的小活动就行! 现在咱们聊聊,为啥这份白皮书突然就刷屏了?为啥说它是"必学秘籍"? 你不必是数据科学家或机器学习工程师——人人都可以编写提示词。 你苦口婆心解释半天,它抓着一个无关紧要的词就开始自由发挥…… 你想要个 A,它自信满满地给你个 B,还附赠一套又臭又长、看似完美的错误逻辑…… 同一个问题,昨天它懂你,今天它就装傻,效果全看"缘分"…… Google 这份白皮书,不是某个博主的心得体会,不是零散的技巧合集,而是 Google 官方基于对大语言模型(LLM)的深刻理解,系统性梳理出来的 ...
Agent、DeepSeek、多模态热点炸场!60+重磅嘉宾共探AI未来,2025全球机器学习技术大会完美收官!
AI科技大本营· 2025-04-21 10:24
以下文章来源于CSDN ,作者CSDN CSDN . 成就一亿技术人 作者 | 《新程序员》编辑部 出品 | CSDN(ID:CSDNnews) 在万物向 "智 " 生长的 2025 年,AI 领域的热潮持续升温,正引领着技术革新与产业探索的新浪潮。 了新的破解思路?围绕这些关键问题,欢迎回看大会首日视频,看众多技术大咖如何从理论、算法到实际应用层面进行了深度剖析 ,以此 了解 AI 技术 的更多最新进展: 大模型技术创新驱动的 AI 生态和应用演进 李建忠 CSDN 高级副总裁、 Boolan 首席技术专家 4 月 18-19 日,由 CSDN 联合高端 IT 咨询与教育平台 Boolan 举办的 2025 全球机器学习技术大会(ML-Summit 2025),在上海虹桥西郊庄园丽笙 大酒店隆重拉开帷幕。本次大会围绕 AI 最前沿的发展趋势与落地实践,聚焦大语言模型技术演进、AI 智能体、具身智能、DeepSeek 技术解析与行业 实践等 12 大专题,邀请了超 60 位来自全球顶尖科技企业与学术机构的重磅嘉宾齐聚一堂,全面呈现 AI 领域的技术风向与应用前沿。 在生成式 AI 重构技术边界的浪潮下,产业实 ...
类脑智能是AI新突破关键,上海全链条布局产业新赛道
Di Yi Cai Jing· 2025-04-19 05:49
中科院院士蒲慕明表示,我们要借鉴大脑的结构和计算特点,让人工智能突破算力、数据和参数规模的限制,实现更高级别的通用人工智能。 自上世纪80年代类脑计算的概念被首次提出起,有关类脑人工网络、类脑机器学习、类脑芯片等领域的技术研究不断涌现。而随着算力、芯片、算法三要素 的不断突破,以及多学科交叉融合的逐步深入,类脑智能发展正迎来新的发展契机。 4月18下午,在2025全国类脑智能产业创新发展推进会上,类脑智能产业创新发展联盟发起成立,类脑智能未来产业基金矩阵在会上首次亮相。 类脑智能未来产业基金矩阵由上海未来产业基金、博康共赢基金、道禾基金、杨浦科创集团等10家投资机构联合发起,将聚焦类脑智能产业新赛道,支持类 脑产业前沿技术研究、落地与应用,完善类脑产业布局,推动区域类脑产业发展。 于2017年就在全国率先开展类脑智能布局的上海,通过深化基础原创理论研究、加快关键核心技术攻关、承接国家重大战略任务等举措,在类脑计算芯片、 类脑视觉系统研发等领域取得了重要成果。 当前,规模定律(Scaling Law)已将达到算力和数据的瓶颈,人工智能的性能提升将会放缓。新算法与人工网络模型的进一步优化,借鉴低功耗但复杂而 精巧 ...
龚虹嘉谈「杭州六小龙」:天使投资的成功有时需要漫不经心
IPO早知道· 2025-04-19 02:55
作者:MD 在对谈中,龚虹嘉分享了他对于耐心资本、长期主义和成功的天使投资的思考。龚虹嘉谈及 "杭州六 小龙"为何在杭州出现时表示:" 江浙确实活跃着一批专业知识不一定丰富,但是对某一些事物的理 解有自己的独特理解 、 口袋里有一些钱的老板。 " " 老板不能太大了,太大的老板看不上这些事情, 大多数情况是这些老板在 各 种 场合接触,也不懂 就漫不经心地投了一笔,太懂了就投不了这些事情 —— 一想我认识的院士教授干你这个多了,我凭 什么投你 ?一句话,就不投了。 "龚虹嘉说," 有时候 天使投资 的成功 需要漫不经心。 " 公开信息显示,龚虹嘉于 2001年以245万元投资海康威视(002415.SZ),持股49%,经历多次减持 后,据海康威视2024年第三季度财报显示,龚虹嘉持有海康威视10.42%,持股部分对应市值约270亿 元。 以下为对谈中龚虹嘉的发言(有删节) 谈天使投资的长期主义 长期主义与科技创新的关系,技术的发展是一波一波的, 很多天使投资 都是在社会技术迭代、技术 转型过程中 ,涌现出 我们眼中认为的一些机会。 一波技术过去了你当时看好的项目 , 没有成功的 概率也是蛮大的 。 这个时候天 ...
AI能看懂图像却算不好距离,上交时间-空间智能基准难倒9大顶尖多模态模型
量子位· 2025-04-15 03:54
STI-Bench团队 投稿 量子位 | 公众号 QbitAI 多模态大语言模型(MLLM)在具身智能和自动驾驶"端到端"方案中的应用日益增多,但它们真的准备好理解复杂的物理世界了吗? 上海交通大学联合中国地质大学、南洋理工大学、智源研究院以及斯坦福大学的研究团队推出首个多模态大模型(MLLM)时空智能评测基准 STI-Bench(Spatial-Temporal Intelligence Benchmark),向当前最先进的多模态大语言模型发起了关于精确空间时间理解的严峻挑战。 结果显示,即便是Gemini-2.5-Pro、GPT-4o、Claude-3.7-Sonnet、Qwen 2.5 VL等当前最强的多模态大模型,在需要定量分析真实世界空 间关系和动态变化的任务上,表现并不尽人意。 从语义理解到时空智能 MLLM在视觉语言理解上成就斐然,并被寄望于成为具身智能和自动驾驶的"端到端"解决方案。但这要求模型超越传统的语义理解,具备精准 的时空智能。 试想AI应用场景中的需求: 自动驾驶: 需知晓与前车的精确距离(米)、行人过马路的速度(米/秒)、安全过弯的车速限制等。 机器人操作: 需判断目标物体的尺寸位 ...
元戎启行周光:智驾最终拼的是 AI 技术,不只是规模丨具身智能对话#13
晚点Auto· 2025-04-14 13:47
以下文章来源于晚点LatePost ,作者晚点团队 晚点LatePost . 晚一点,好一点 先有一个移动能力的 "通才",才有更强的智驾系统。 文 丨 张家豪 编辑 丨 程曼祺 全无人驾驶,始终被视作自动驾驶行业皇冠上的明珠,就像登顶珠穆朗玛峰有 19 条路线一样,不同的公司选 择了不同的路线通往无人驾驶的最终目标。 Waymo、小马们选择了基于高精地图的 RoboTaxi 路线,在特定的路线已经实现了 RoboTaxi,为市民提供没有 司机的出行服务;以特斯拉为代表的车企与供应商,则是通过渐进式路线,卖车搭配辅助驾驶方案,收集数据 一步步迭代方案,试图逼近技术极限。 没有人能笃定哪条路线一定能成功登顶,也还有不同的公司,在尝试不同的登顶路线。 在今年的英伟达 GTC( GPU Technology Conference)上,元戎启行周光提出了一套新的解法,他说,大语言 模型的发展,经历了从弱专家模型(初代 Siri)、到通才(ChatGPT)、再到强专家模型(垂直模型)的过 程。智驾也可以复制这样的路线,一个移动能力的通才,能开好汽车、能骑好摩托车、能让配送小车随时找到 你,之后就可能进化到强专家模型—— ...
The Information爆料:苹果的大公司病,是怎么搞砸了AI版Siri的?
Founder Park· 2025-04-14 11:34
科技媒体「The Information」近期发布了一篇关于苹果新版 Siri 延期发布内幕的评论文章,直指苹果 Siri 项目推迟发布背后隐藏的诸多问题。 模型技术路线摇摆、内部团队冲突、高层犹豫不决等,Siri AI 的失败,可以说是完整体现了一个公司面对新技术的「大公司病」。 文章基于 The Information 的文章编译,略有调整。 TLDR: 苹果 Siri 部门高级总监 Robby Walker 对此的说法是, 「但这也只是一个目标,并不意味着那时就会发布」。 换言之,关于新版 Siri 发布时间,最新的答案是: 苹果自己也不知道。 背后到底发生了什么?为何苹果在 AI 战略上进度这么缓慢,已经落后在其他手机品牌之后? 在 WWDC 2024 上预告的新版 Siri,迄今仍未发布。甚至有消息称,可能会延期到今年的 iOS 19 版本中才会正式发布。 Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核 后工作人员会拉你入群~ 进群之后,你有机会得到: 01 云端结合,还是一个云端模型 从大小模型协作到 ...
Circle to Search, XOXO:「圈定即搜」功能交互解析与入门指南
3 6 Ke· 2025-04-14 07:52
Core Points - Circle to Search is a new interaction method introduced by Google, first showcased at the Galaxy Unpack event, and is available on Samsung Galaxy S24 and Google Pixel 8 series devices [2][6] - The feature allows users to select screen areas with simple gestures and provides results based on the selection, enhancing the overall user experience on Android devices [3][7] Group 1: Functionality and User Experience - Circle to Search enables users to quickly access search results by selecting text or images on the screen, with additional tools for translation and music identification [3][8] - The design emphasizes rapid response, low error rates, and intuitive screen segmentation, making it more user-friendly compared to Google Lens [8][9] - The development team utilized a streamlined approach, focusing on prototype creation rather than extensive documentation, which led to a more agile development process [9][10] Group 2: Comparison with Competitors - Circle to Search significantly simplifies the search process compared to similar features in other operating systems like HyperOS and Flyme, which require waiting for screen recognition before initiating actions [15][17] - The integration of Google Search provides a robust backend for Circle to Search, allowing for immediate and relevant results, unlike some competitors that rely on slower AI models [17][20] Group 3: Technical Implementation - The feature leverages the new Android Ink API for smooth and responsive gesture recognition, enhancing the user experience with minimal latency [25][27] - Circle to Search supports various Android devices, including Google Pixel and select Samsung models, with a straightforward activation process [29][31] Group 4: Practical Applications - Users can utilize Circle to Search for various tasks, such as quickly sharing screenshots, translating text, and navigating to locations based on selected text [49][51] - The feature's versatility allows for seamless integration into daily activities, making it a valuable tool for information retrieval and sharing [52][53] Group 5: Future Prospects - Google aims to enhance Circle to Search by integrating AI capabilities, potentially improving its functionality while maintaining a smooth user experience [56][57] - The ongoing development reflects a commitment to creating a comprehensive and user-friendly search tool that adapts to the evolving needs of smartphone users [58][59]