Workflow
机器之心
icon
Search documents
信息过载时代,如何真正「懂」LLM?从MIT分享的50个面试题开始
机器之心· 2025-06-18 06:09
机器之心报道 编辑:+0 人类从农耕时代到工业时代花了数千年,从工业时代到信息时代又花了两百多年,而 LLM 仅出现不到十年,就已将曾经遥不可及的人工智能能力普及给大 众,让全球数亿人能够通过自然语言进行创作、编程和推理。 LLM 的技术版图正以前所未有的速度扩张,从不断刷新型号的「模型竞赛」,到能够自主执行任务的智能体,技术的浪潮既令人振奋,也带来了前所未有 的挑战。 如何在海量信息中建立真正的认知深度,而非仅仅成为一个热点的追随者?也许可以从「做题」开始。 最近,MIT CSAIL 分享了一份由工程师 Hao Hoang 编写的 LLM 面试指南,精选了 50 个关键问题,旨在帮助专业人士和AI爱好者深入理解其核心概念、 技术与挑战。 文档链接:https://drive.google.com/file/d/1wolNOcHzi7-sKhj5Hdh9awC9Z9dWuWMC/view 我们将这 50 个问题划分为了几大主题,并附上图示和关键论文。希望这份指南能成为您的「寻宝图」,助您开启 LLM 探索之旅,无论是在面试中,还是 在未来的技术浪潮中,都能保持清醒的认知和持续探索的热情。 LLM 发 展历程。 ...
冠军队独享200万,进决赛就有直通offer,腾讯广告算法大赛报名开启
机器之心· 2025-06-18 06:09
机器之心原创 作者:张倩 「2025 年,多模态生成是一个好方向吗?」这是一位同学在今年年初提出的问题。 他之所以有此疑问,是因为在找实习时发现,狭义的 AIGC(如视频生成)岗位较少,就业前景不佳,自己的「底层视觉 + 生成模型」背景不知道怎么才能发挥用 武之地。 这位同学描述的情况相信很多同学都遇到过。确实,这两年 AIGC、多模态生成很火,理论上很多行业都能用上,比如影视、游戏…… 但由于技术发展仍在早 期,能经得起商业验证的场景其实并不多。部分从业者曾在采访中告诉机器之心,他们和影视行业接触过,比如拍短剧的导演,但对方表示,目前 AI 相比普通演 员仍然不具备竞争力。 不过,并非每个行业都如此悲观。据我们观察,至少从三年前开始,多模态生成就已经在广告等行业成功试水,去年更是给一些大厂带来了实打实的收益。在这 些正向回报的激励下,不少企业正在加大投入,希望用生成式 AI(尤其是多模态生成)给广告内容的生产、分发带来一场变革。对于相关人才来说,这里面蕴含 着大量的机会。 生成式 AI + 广告 一条已经跑通的路线 提到广告 AI,大多数人首先想到的是用 AI 助力广告内容的生成。这确实是一项已经开展多年的 ...
统一框架下的具身多模态推理:自变量机器人让AI放下海德格尔的锤子
机器之心· 2025-06-18 06:09
机器之心报道 自变量机器人 自变量机器人 主张,必须放弃以"多模态模块融合"为核心的拼凑式范式,转向一个端到端的统一架构。该 架构旨在彻底消解视觉、语言和行动之间的人为边界,将它们还原为单一信息流进行处理。 当前范式的根本局限 现有主流方法将不同模态视为独立模块,如预训练的 ViT 处理视觉信息,LLM 处理语言理解,然后通过融 合层进行连接。这种"委员会"式的设计存在着本质缺陷。 首先是 表 征瓶颈问题 。信息在不同模态的专属编码器之间传递时,会产生不可避免的压缩损失,就像将一 幅油画描述给盲人,再让盲人向聋人传达画面内容一样,每次转换都会丢失关键的细节和关联。 这种损失 阻碍了模型对物理世界进行深层次的跨模态理解。 最关键的是 无法涌现的问题 。结构上的割裂使得模型难以学习到物理世界中跨越模态的、直觉式的因果规 律。就像一个人无法仅通过阅读教科书就学会骑自行车一样, 真正的物理智能需要的是整体性的、具身的 理解 ,而不是模块化的知识拼接。 当 AI 放下海德格尔的锤子时,意味着机器人已经能够熟练使用工具,工具会"隐退"成为 本体的延伸,而不再是需要刻意思考的对象。 当一位熟练的木匠抓起锤子时,锤子消失了 ...
刚刚,Gemini 2.5系列模型更新,最新轻量版Flash-Lite竟能实时编写操作系统
机器之心· 2025-06-18 01:24
机器之心报道 编辑:Panda 刚刚,Gemini 系列模型迎来了一波更新: 谷歌 CEO Sundar Pichai 发推表示新推出的 Gemini 2.5 Flash-Lite 是目前性价比最高的 2.5 系列模型。 可以看到,谷歌对 2.5 Flash-Lite 的定位是适合用于「量大且注重成本效率的任务」。相较之下,2.5 Pro 适合编程和高复杂度任务,2.5 Flash 则居中,更适合需要 较快速度的日常任务。 Gemini 2.5 Pro 稳定版发布且已全面可用,其与 6 月 5 日的预览版相比无变化。 Gemini 2.5 Flash 稳定版发布且已全面可用,其与 5 月 20 日的预览版相比无变化,但价格有更新。 新推出了 Gemini 2.5 Flash-Lite 并已开启预览。 | | | 2.5 Flash-Lite | 2.5 Flash | 2.5 Pro | | --- | --- | --- | --- | --- | | | | THINKING OFF | THINKING | THINKING | | Best for | | High volume cost- | Fa ...
想知道你的LLM API被过度收费了吗?隐藏的Tokens终于可以被审计了
机器之心· 2025-06-17 08:52
本文作者来自马里兰大学的 CASE ( C ollaborative, A utomated, S calable, and E fficient Intelligence) Lab,主要参与者为博士生孙国恒与王子瑶,指导教师为李昂 教授。 研究背景:在商业保护与用户知情间寻求平衡 论文标题: Invisible Tokens, Visible Bills: The Urgent Need to Audit Hidden Operations in Opaque LLM Services arXiv 链接:https://arxiv.org/pdf/2505.18471 近年来,大型语言模型(LLM)在处理复杂任务方面取得了显著进展,尤其体现在多步推理、工具调用以及多智能体协作等高级应用中。这些能力的提升,往往 依赖于模型内部一系列复杂的 「 思考 」 过程或 Agentic System 中的 Agent 间频繁信息交互。 然而,为了保护核心知识产权(如防止模型蒸馏或 Agent 工作流泄露)、提供更流畅的用户体验,服务提供商通常会将这些中间步骤隐藏,仅向用户呈现最终的 输出结果。这在当前的商业和技术环境下 ...
首个全面梳理语音大模型发展脉络的权威综述,入选ACL 2025主会
机器之心· 2025-06-17 04:50
想象一下,如果 AI 能够像人类一样自然地进行语音对话,不再需要传统的 「 语音转文字(ASR)- 文本大模型处理(LLM)- 文字转语音(TTS) 」 的 繁琐流程,而是直接理解和生成语音,那将是怎样的体验?这就是 语音大模型 (语音语言模型,SpeechLM)要解决的核心问题。 传统的语音交互系统存在三大痛点:信息丢失、延迟严重、错误累积。当语音转换为文字时,音调、语气、情感等副语言信息完全丢失;多个模块串联导致 响应延迟明显;每个环节的错误会层层累积,最终影响整体效果。 SpeechLM 的出现彻底改变了这一局面。它能够端到端地处理语音,既保留了语音中的丰富信息,又大幅降低了延迟,为真正自然的人机语音交互铺平了 道路。 本文第一作者:崔文谦,香港中文大学博士生,致力于语音大模型,多模态大模型,AI音乐生成等方向的研究。 由香港中文大学团队撰写的语音语言模型综述论文《Recent Advances in Speech Language Models: A Survey》已成功被 ACL 2025 主会议接收!这 是该领域首个全面系统的综述,为语音 AI 的未来发展指明了方向。 ArXiv链接:https: ...
从扭秧歌到跑半马:机器人离「iPhone时刻」还有多远?
机器之心· 2025-06-17 04:50
机器之心发布 机器之心编辑部 从春晚舞台上扭秧歌、转手绢,到稳健完整跑完半程马拉松…… 过去半年,一系列炫酷的表演,把人们对 机器人的认知从想象拉进了现实。 但当 AI 圈、车圈、互联网圈大佬们纷纷跻身到具身智能时,每个人都绕不开以下几个灵魂拷问:具身智能 还有哪些技术瓶颈?到底怎么落地?应该先从哪些场景开始落地?要解决用户哪些真实需求?能够做到怎 样的量产成本…… 在行业的「iPhone 时刻」真正到来前,没有人能够精准给出上述问题的全部答案。 把创新技术转化为具有商业价值的实际产品,固然需要长期的探索实践。如何尽可能缩短这条探索路径的 周期、降低成本,反而是现在具身智能赛道玩家更加关注的话题。 去年以来,面向具身智能机器人的计算开发平台,成为国内外平台型企业争相布局的全新赛道。英伟达推 出 Jetson Thor,高通、英特尔紧随其后。在国内,脱胎于地平线的地瓜机器人,去年亮相的 RDK S100 算控 一体化开发者套件也在本月正式发布。所有企业的目标只有一个,「征服」每一个机器人开发者和厂商。 在一众产品当中,RDK S100 的 80 TOPS 算力并不算「拔尖」,但却已经覆盖了 20 + 头部具身智 ...
首个转型AI公司的新势力,在全球AI顶会展示下一代自动驾驶模型
机器之心· 2025-06-17 04:50
机器之心报道 作者:泽南 L3 级别智能驾驶的关键:大算力、大模型、大数据。 端到端智能驾驶,正在沿着大模型 Scaling Laws 的道路狂奔。 上周三,全球首款 L3 级算力「AI 汽车」小鹏 G7 正式亮相,其首发搭载的三颗自研图灵 AI 芯片,超过 2200TOPS 有效算力,本地部署的 VLA+VLM 模 型等特性引发了关注。 基于超高端侧算力,小鹏 G7 行业首发了智驾大脑 + 小脑 VLA-OL 模型,第一次给智能辅助驾驶加入了「运动型大脑」的决策判断能力。 小鹏 G7 同时首发了 VLM(视觉大模型),它可以作为车辆理解世界的 AI 大脑,将会是人与汽车交互的新一代入口。作为车辆行动的中枢,可以指导智能 辅助驾驶和智舱等整车能力,未来还可以实现本地聊天、主动服务、多语言等功能。 尽管只是在后装算力的车辆上用早期版本的模型进行测试,小鹏自动驾驶基模已经展现出令人惊叹的智能和拟人水平。 同样是在上周,美国纳什维尔举行的 全球计算机视觉顶会 CVPR 2025 上,小鹏作为唯一受邀的中国车企分享了其自动驾驶基座模型的研发进展 。 小鹏自去年 5 月就宣布了量产端到端大模型上车,并构建了从算力、算法 ...
同一天开源新模型,一推理一编程,MiniMax和月之暗面开卷了
机器之心· 2025-06-17 03:22
机器之心报道 机器之心编辑部 同一天,国内大模型厂商扎堆发起了新模型。 AI「六小龙」中的 MiniMax 和月之暗面各自公布了开源新成果。 其中,MiniMax 启动了「MiniMax Week」,并在第一天开源了其最新的长上下文推理 LLM—— MiniMax-M1 。该模型支持 全球最长的上下文窗口,包括 100 万 tokens 输入、8 万 tokens 输出 。 不仅如此,MiniMax-M1 还实现了 开源模型中最强的智能体工具使用能力 。强化学习效率也惊人,仅仅需要 53.47 万美元即可完成训练。 目前,MiniMax-M1 已经集成到了 MiniMax Chat 中。 如此强大的 MiniMax-M1 有哪些亮点功能呢?首先,它支持 UI 组件聚焦(Spotlight) ,只需输入提示词,立即就可以构建一个具有基于画布的动画粒子背景的 HTML 页面。 其次,MiniMax-M1 支持 交互式应用程序 。比如要求它构建一个打字速度测试,很快就生成一个干净、实用的 Web 应用程序,可以实时跟踪 WPM(每分钟字 数)。不需要插件,也不需要设置。 此外,MiniMax-M1 的 可视化效果很 ...
突破多智能体系统边界,开源方案OWL超越OpenAI Deep Research,获17k star
机器之心· 2025-06-17 03:22
港大、camel-ai 等多家机构联合提出了一种名为新的名为 Workforce 的创新多智能体框架,以及配套的 OWL(Optimized Workforce Learning)训练 方法,在通用 AI Assistant 的标杆基准测试 GAIA 上取得了 69.70% 的准确率,不仅刷新了开源系统的最佳纪录,更是超越了多家商业系统以及 OpenAI Deep Research 的开源方案。 该研究成果所有代码均已开源,目前已经在 github 上收获了 17k 的 star。 论文标题:OWL: Optimized Workforce Learning for General Multi-Agent Assistance in Real-World Task Automation 论文地址:https://arxiv.org/abs/2505.23885 项目代码:https://github.com/camel-ai/owl 背景与挑战:多智能体系统的 「 领域壁垒 」 随着 LLM 的飞速发展,单一智能体在处理复杂现实任务时逐渐暴露出局限性。为此,多智能体系统(MAS)应运而生,通过让多个专门化的智 ...