小模型

Search documents
上交研究登Nature大子刊!可微分物理首次突破端到端无人机高速避障
机器之心· 2025-07-08 00:04
本文主要作者来自上海交通大学和苏黎世大学,第一作者张宇昂,上海交通大学研究生,主要研究方向包括可微分物理机器人、多目标追踪和AIGC;共同 一作胡瑜,上海交通大学博士生,主要研究方向为无人机视觉导航;共同一作宋运龙博士来自苏黎世大学,主要研究方向是强化学习、最优控制。通讯作 者为上海交通大学的林巍峣教授和邹丹平教授。 想象一下:在未知森林、城市废墟甚至障碍密布的室内空间,一群无人机像飞鸟般快速穿梭,不依赖地图、不靠通信、也无需昂贵设备。这一设想,如今成为现 实! 上海交通大学研究团队提出了一种融合无人机物理建模与深度学习的端到端方法,该研究首次将可微分物理训练的策略成功部署到现实机器人中,实现了无人机 集群自主导航,并在鲁棒性、机动性上大幅领先现有的方案。 该成果已于《 Nature Machine Intelligence 》在线发表。其中张宇昂硕士、胡瑜、宋运龙博士为共同第一作者,邹丹平与林巍峣教授为通信作者。 | | | 论文地址: https://www.nature.com/articles/s42256-025-01048-0 核心理念:大道至简 过去的无人机自主导航往往依赖: 高复杂度定位与建图 ...
AI在工业铺开应用,英伟达的“AI工厂”并非唯一解
第一财经· 2025-06-19 13:47
2025.06. 19 本文字数:4395,阅读时长大约4分钟 作者 | 第一财 经 郑栩彤 英伟达CEO黄仁勋最近越来越多提到AI工厂的概念。 5月,黄仁勋宣布英伟达与富士康合作,在中国台湾打造一台配备1万颗英伟达Blackwell GPU的AI 工厂超级计算机。上周,黄仁勋又宣布,英伟达将在德国建设全球首个工业AI云,配备1万颗 Blackwell GPU。英伟达还将在欧洲建20余个AI工厂。 在英伟达展示的图景里,汽车可以在虚拟环境中设计,机器可以在虚拟环境中训练,工厂产线可以在 虚拟环境中优化后再到现实工厂运行。这些计算用到了AI。黄仁勋称,每个制造商都会有两个工 厂,一个制造产品,另一个创造驱动这些产品的智能。 产生这些"智能"的算力来自实体AI工厂,也就是部署了大量GPU的算力中心。如果说英伟达指明了工 业AI转型的主要方向,那么,随着各万卡算力中心落地,工业应用AI的转折点可以说在加速到来。 不过,还有一些问题需要厘清:英伟达在工业AI转型中扮演的角色是什么?这是工业AI转型的主要 路径吗?这些大GPU集群是否将是未来的主要算力形式? 记者了解到,英伟达的路线更多是基于仿真平台Omniverse ...
智能投顾的大模型应用,为什么选择了“大小模型协同”?
AI前线· 2025-06-15 03:55
采访嘉宾|尹辰轩,北银金科高级算法专家 编辑|罗燕珊 大模型时代,金融行业依然站在技术革新的前沿。而在智能投顾这一高度合规、专业性极强的场 景中,大模型的落地不仅是技术挑战,更是业务安全的严峻考验。面对挑战,北银金科采用了"大 小模型协同"的架构思路,尝试在性能、准确性与合规之间找到更优平衡。 "大模型投顾落地的最大技术挑战,在于如何在高合规门槛的业务中避免幻觉和误答。" 北银金科 高级算法专家尹辰轩 表示 , 金融业务不像通用问答那样容错率高,一旦输出带有承诺收益或判 断错误的内容,不仅影响用户决策,更可能带来法律风险。 在这种背景下,大小模型协同成为一条更为稳妥的路径。一方面,它限制了大模型的职责范围, 主要负责任务扩写与流程编排,核心内容交由小模型完成;另一方面,也提升了整体的性价比 ——在更低算力消耗下,实现更稳定、深入的回答效果。 展望未来,尹辰轩认为,AI 应用架构会逐渐趋于"语言理解 + 工具调用"的组合形态,大小模型协 同也只是更大趋势的一部分。 关于"大小模型协同"的相关思路及其在金融领域的应用情况,尹辰轩近日在接受 InfoQ 采访时做 了简要阐述。更多实践细节他将在 6 月 27~28 ...
端侧AI的未来:苹果能否凭借“小模型”逆袭?
3 6 Ke· 2025-06-10 06:26
每年的苹果全球开发者大会(WWDC)曾是科技界万众瞩目的盛事,门票在短短几十秒内售罄,开发者们翘首以盼,期待着苹果带来改变世界的创。然而, 今年的WWDC,似乎少了些往日的喧嚣与激情。当整个科技行业都在以"光速"追逐AI创新时,苹果在人工智能领域的步伐却显得有些"慢热"甚至" underwhelming"。 这种"平淡"并非空穴来风。许多第三方应用开发者对苹果即将发布的AI功能表现出"不温不火"的态度。正如AI驱动的个人理财应用Origin的首席产品官 Atul Kakkar所言:"作为一名应用开发者,我并没有真正感受到苹果发布AI产品所带来的那种强烈的兴奋感。"这不禁让人思考,曾经引领潮流的苹果,在 AI时代是否正在失去其原有的魔力? 苹果的"小模型"策略:优势与开发者的疑虑 此次WWDC,苹果预计将重点展示其在端侧AI方面的进展,特别是允许开发者利用其设备上的"小模型"来构建AI驱动的应用。所谓"小模型",通常指那 些在较少数据上训练、消耗更少计算资源、能够在iPhone等设备上直接运行的AI模型,而非依赖云端大型服务器。 理论上,端侧AI具有诸多优势: 2.数据微调:开发者是否能够像云端模型那样,利用自 ...
专家:人工智能已成为工业互联网深层次发展的关键变量
Xin Hua Cai Jing· 2025-05-23 06:35
三是助力企业智慧运营管理与服务。AI实时收集、分析来自企业各个环节的数据,包括生产、销售、 采购、财务等,实现对企业供应物流、人员配备等各类资源的优化配置,实时监测企业运营中的各种风 险。 (文章来源:新华财经) 田洪川介绍,通过对120余个国内外典型案例并进行近2年对比发现,大模型在处理多模态工业数据的能 力不断提升。专用领域大模型驱动的知识发现类应用探索加快,行业龙头企业以及领先科研机构探索利 用大模型叠加能源电力、石化化工、研发仿真、基础科学研究等专业知识,开展特定领域创新应用。 专家预计,未来大模型将持续提升泛化性与综合分析能力,并与AI小模型协同,加速"研-产-管-服"全链 条变革。 田洪川介绍,一是助力企业实现产品自主设计。大模型将深度融入设计各环节,基于海量数据快速生成 创意方案,自动优化参数和结构,确保性能、质量和成本的最优平衡,借助小模型提升物理现象理解的 精准性,使模拟与仿真更高效,指导工艺优化与改进,推动产品研发的智能化和高效化。 二是助力企业实现高度自主化无人化生产。大模型能结合企业自身的生产能力、原材料供应、设备状态 等多方面因素,自动生成精准且灵活的生产计划,实现多品种、小批量产品 ...
AI推理加速演进:云计算的变迁抉择
2 1 Shi Ji Jing Ji Bao Dao· 2025-05-21 11:09
Akamai亚太区云计算专家团队负责人李文涛告诉21世纪经济报道记者,在与客户探讨AI趋势过程中, 不少公司CTO反馈,"前几年花了很多时间在练好内功,把模型训练好、调整好,但在推理方面着实有 些准备不足。" "因为与训练数据中心不同,推理过程需要考虑更多细节点。"他进一步分析道,例如在推理效率方面, 如何把服务变成可赢利的商业服务,此外还有推理可扩展性、合规性等。"真正把AI变成运营级服务, 需要有更多考虑。除了算力本身,还包括数据管理,简化、容器化的边缘运维、边缘计算等能力。" 李昇也指出,行业投资重心会越来越多转向推理,而不仅是训练。"推理效率主要是根据推理模型的吞 吐量、时延和成本去做综合评估。举例来说,Akamai的AI推理服务帮助企业提供了3倍推理吞吐能力, 降低了60%的推理时延。" 21世纪经济报道记者骆轶琪广州报道 开源大模型的高效迭代,让AI发展趋势正加速从AI训练转向AI推理,同时有更多小模型应用落地需求 出现,这些趋势正对云计算市场产生深远影响。 近日,Akamai副总裁暨大中华区总经理李昇在接受21世纪经济报道等媒体采访时表示,咨询机构IDC指 出,未来AI推理的市场规模预计将达训练 ...
10万美元成本训练的小模型,在特定任务超越GPT-4o,延迟低99倍
3 6 Ke· 2025-05-14 09:45
现有的SOTA级别大语言模型固然拥有较强智能,在部分任务上达到或超过了人类的水准,但他们的参数尺寸动辄达到数千亿甚至万亿,无论是训练,部 署,还是推理,都成本高昂。对于企业和开发者来说,这些SOTA模型在一些相对简单,但需要大规模和高并发的任务上,未必是综合成本及性能的最优选 择。 一家叫Fastino的早期初创公司看到了这个痛点,使用低端游戏GPU,以平均不到10万美元的成本,训练出一系列称为"任务特定语言模型"(TLMs,Task- Specific Language Models)的小型模型,能够在特定任务上性能媲美大型语言模型,并且推理速度快99倍。 近日,Fastino获得由Khosla Ventures领投的1750万美元种子轮融资,Insight Partners,Valor Equity Partners,以及知名天使投资人前Docker首席执行官Scott Johnston和Weights & Biases首席执行官Lukas Biewald参与。在2024年11月,Fastino获得M12(微软旗下)和Insight Partners领投的700万美元前种子轮融资, 累计融资近2500万美 ...
小鹏关于自己VLA路线的一些QA
理想TOP2· 2025-05-09 14:30
原作者:小鹏自动驾驶产品高级总监微博用户XP-Candice婷婷 原文链接: https://weibo.com/7926776135/PqSjHhgEN 1、为什么云端大模型蒸馏,优于直接训练一个车端的小模型? 小鹏的技术路线选择的,是超大型云端模型蒸馏,而不是仅仅云端小型训练后直接部署到车端。 我们 正在云上训练72B参数的超大规模VLA模型,未来会通过蒸馏方法,生产出小尺寸的车端模型。蒸馏最 大的好处,是让车端小模型尽可能承袭云端大模型的能力,把72B超级大脑的智能"推云入端"。 这比直 接训练一个车端小模型更难,但上限也更高。 原因1:更强的规模法则效应。 模型参数的利用率是有限的,通过云端更大的模型,有更多的数据,能学到更多的东西,涌现效应更 强。再蒸馏到车端的小模型上,可以让小模型有更强的表现。 原因2:解决"模态不统一"的困境。 自动驾驶本身就是多解的(也就是所谓的多模态的),会遇到"模态不统一"的困境。模态不统一,指的 是,面对同一个驾驶场景,驾驶者的表现会不同,且每一条路径选择都是对的,面对输出的多模态,如 果让模型直接通过模仿学习去学这个,就会造成模态的不统一,甚至会出现模态坍塌,而且这个 ...
大模型也有“不可能三角”,中国想保持优势还需解决几个难题
Guan Cha Zhe Wang· 2025-05-04 00:36
【演讲/钟新龙,整理/观察者网 唐晓甫】 很多人说"人工智能的历史既长又短"。 其"长",在于人工智能概念可以追溯至1950年,当时计算机奠基人图灵提出了著名的"图灵测试"。他认 为,若第三方无法区分计算系统与人类的回答来源,则可认为该系统具有智能。由此,人工智能的概念 自1950年起便有了理论基础。 其"短",则在于大众层面对人工智能的广泛接触,应当以2022年11月发布的ChatGPT为分水岭,截至今 日仅有两年多的发展历程。 编者按:随着ChatGPT的爆火以及具身智能的大规模出现,利用AI大模型的通用人工智能带 领人类进入第四次工业革命的设想,在欧美世界尤其是金融圈成为最热门的话题。受此影 响,国内不少相关人士也在强调美国领导的西方体系会利用其"算法+数据+算力"的三重优 势对我国形成技术代差,从而导致我国在潜在的"第四次工业革命"中落于人后。 但是随着 人工智能大模型的演进和实践,更多人意识到,这套叙事存在逻辑瑕疵。而在这场再认识的 过程中,更多人对于人工智能的潜力和局限有了更明晰的认知。于是就在今年4月,工业和 信息化部直属单位中国电子信息产业发展研究院(赛迪研究院)正式发布了《人工智能赋能 新型 ...