Workflow
AI前线
icon
Search documents
被“网暴”两个月后,Yann LeCun 携最新世界模型杀回!小扎千万美元激励抢人,Meta AI 内部权利之争开始
AI前线· 2025-06-12 06:07
整理 | 华卫 昨日,Meta 推出了其新的"世界模型"V-JEPA 2,旨在实现物理世界中顶尖的视觉理解与预测能力,以提升 AI 主体的物理推理 能力。对于构建能在物理世界中运作的 AI 智能体和实现高级机器智能(AMI)的工作而言,物理推理能力至关重要。 在一段发布的 V-JEPA 2 视频演示中,图灵奖获得者、Meta 首席 AI 科学家 Yann LeCun 将 V-JEPA 2 描述为"现实的抽象数字 孪生",使 AI 能够 "预测其行为的后果" 并 "规划行动方案以完成给定任务"。 "我们相信,世界模型将开启机器人技术的新纪元,使现实世界中的 AI 主体能够帮助完成家务和体力任务,而无需海量的机器 人训练数据。" 比英伟达的 Cosmos 模型快 30 倍, 现已开源 作为人类,我们具备预测物理世界如何因响应自身或他人行为而变化的能力。例如,你知道将网球抛向空中时,重力会将其拉 回地面;在陌生的拥挤区域行走时,你会朝着目的地移动,同时避免碰撞沿途的人群或障碍物;打曲棍球时,你会滑向冰球的 前进方向,而非它当前的位置。 实际上,人类是通过观察周围世界并构建内部模型来形成这种物理直觉,进而预测假设行为 ...
对话智源王仲远:机器人的大小脑可能会“合体”,但不是今天
AI前线· 2025-06-11 08:39
Core Insights - The article discusses the launch of the "Wujie" series of large models by Zhiyuan Research Institute, focusing on advancements in multi-modal AI technology and its applications in physical AGI [1][2][3] Group 1: New Model Launch - The "Wujie" series includes several models such as Emu3, Brainμ, RoboOS2.0, RoboBrain2.0, and OpenComplex2, aimed at enhancing AI's understanding and interaction with the physical world [1][2] - Emu3 is designed as a native multi-modal architecture that enables large models to comprehend and reason about the world, set to be released in October 2024 [3][4] Group 2: Technological Advancements - Brainμ, based on Emu3, integrates various brain signals to perform multiple neuroscience tasks, demonstrating significant performance improvements over existing models [4][5] - RoboOS2.0 is the first open-source framework for embodied intelligence, allowing seamless integration of skills from various robot models, with a 30% performance enhancement compared to its predecessor [6][7] Group 3: Applications and Collaborations - Brainμ has potential applications in brain-computer interfaces, having successfully reconstructed sensory signals using portable EEG systems [5] - The OpenComplex2 model represents a breakthrough in dynamic conformational modeling of biological molecules, enhancing the understanding of molecular interactions at atomic resolution [11][12] Group 4: Future Directions - The article emphasizes the ongoing evolution of large model technology, with a focus on bridging the gap between digital and physical worlds, which is crucial for achieving physical AGI [2][3] - RoboBrain2.0 has improved task planning and spatial reasoning capabilities, achieving a 74% increase in task planning accuracy compared to its predecessor [8][9]
OpenAI o3-pro模型发布,但不能聊天
AI前线· 2025-06-11 08:39
作者 | OpenAI 译者 | 核子可乐 策划 | 褚杏娟 当地时间 6 月 10 日,OpenAI o3-pro 现已正式发布——ChatGPT Pro 用户现已可通过 API 使用。 与 o1-pro 类似,o3-pro 是 OpenAI 当前最强智能模型 o3 之下的一个子版本,旨在延长思考时间以 提供更可靠的响应结果。 "自 o1-pro 发布以来,用户一直在数学、科学、编程等领域对该模型青眼有加——学术评估表明, o3-pro 在这些领域延续了出色表现。"OpenAI 表示,与 o3 类似,o3-pro 可以使用 ChatGPT 所擅长 的各类工具——它能够搜索网页、分析文件、推理视觉输入、使用 Python、运用记忆个性化响应等 等。由于 o3-pro 可以使用工具,因此响应结果往往需要比 o1-pro 更长的时间才能生成完成。我们建 议大家仅将其用于可靠性的优先级远高于速度指标的棘手难题,甚至愿意为此等待几分钟时间。 在专家评估中,评估者在包括科学、教育、编程、商业及写作协助等关键领域在内的所有测试类别 中,始终更青睐 o3-pro(而非 o3)生成的结果。评估者们也一致认为,o3-pro 在 ...
字节 AI 卷出新高度:豆包试水“上下文定价”,Trae 覆盖内部80%工程师,战略瞄定三主线
AI前线· 2025-06-11 08:39
整理 | 褚杏娟 近日,字节分享了其对今年 AI 技术发展主线的思考,主要包括以下三个方面: 基于上述考虑,6 月 11 日,字节跳动旗下火山引擎进行一系列的发布和更新,包括豆包大模型 1.6、视频生成模型 Seedance 1.0 pro 等新模型,并升级了 Agent 开发平台等 AI 云原生服务。 豆包 1.6 实行统一定价 大会上,字节发布了豆包大模型 1.6,包括 Doubao-Seed-1.6-thinking、Doubao-Seed-1.6、 Doubao-Seed-1.6-flash,均支持多模态输入,并实现 256K 超长上下文。 Doubao-Seed-1.6 支持 auto/thinking/non-thinking 三种思考模式。据介绍,在高考全国新一卷数学 中,豆包大模型取得 144 分;在海淀模拟全卷考试中,理科取得 706 分,文科获得 712 分。 豆包 1.6 系列模型支持多模态理解和图形界面操作,能够理解和处理真实世界问题。演示案例显示, 豆包 1.6 可自动操作浏览器完成酒店预定,识别购物小票并整理成 Excel 表格等任务。 | 候型能力 | | | | | | | - ...
TypeScript“杀疯了”!60% 到 70%YC 创企用它构建 AI Agent,超越 Python 有戏了?
AI前线· 2025-06-10 10:05
Core Viewpoint - The article discusses the increasing adoption of TypeScript among AI Agent companies, with approximately 60-70% of YC X25 Agent companies using it for development, highlighting a shift from the traditional Python-centric approach to a more TypeScript-focused ecosystem [1][2][12]. Group 1: Reasons for TypeScript Adoption - The rise in popularity of TypeScript is attributed to its static typing and IDE integration, which significantly enhance productivity, especially in rapidly iterating complex logic and linking tools [3][14]. - TypeScript's adoption rate has surged from 12% in 2017 to an impressive 35% in 2024, as reported by JetBrains [6]. - The language's ability to provide immediate feedback during development, allowing developers to see changes in real-time, is a key advantage that makes it appealing for AI application development [9][21]. Group 2: TypeScript vs. Python in AI Development - While Python remains the dominant language for AI training and development, TypeScript is emerging as a strong contender for AI application development due to its unique advantages, such as asynchronous programming capabilities and a strict type system [12][14]. - TypeScript's compatibility with popular AI libraries like TensorFlow.js and Brain.js allows developers to leverage existing JavaScript tools while benefiting from TypeScript's type safety [18][19]. - The article notes that many developers are using both Python and TypeScript, with some preferring TypeScript for its package management and type system advantages [24]. Group 3: Industry Trends and Future Outlook - Major AI development tools, including OpenAI's Agents SDK, are increasingly incorporating TypeScript support, reflecting a broader trend towards accommodating a larger developer community [16][15]. - The emergence of TypeScript-focused AI development frameworks, such as TypeAI and Axilla.io, indicates a commitment within the community to establish TypeScript as a first-class citizen in the AI ecosystem [19][20]. - The article concludes that while Python will likely maintain its dominance in AI development, the growing interest in TypeScript presents an intriguing alternative for specific use cases, making the future of TypeScript in AI development worth monitoring [24].
苹果憋一年终超同参数 Qwen 2.5?三行代码即可接入 Apple Intelligence,自曝如何做推理
AI前线· 2025-06-10 10:05
整理 | 华卫、核子可乐 在今年的 WWDC 全球开发者大会上,苹果推出新一代专为增强 Apple Intelligence 功能所开发的语 言基座模型。经过优化的最新基座模型可在苹果芯片上高效运行,包括一个约 3B 参数的紧凑型模型 和一个基于服务器的混合专家模型,后者为专门针对私有云量身定制的全新架构。 这两大基座模型,均隶属于苹果为支持用户而打造的生成式模型家族。这些模型改进了工具使用与推 理能力,可以理解图像与文本输入,速度更快、效率更高,而且能够支持 15 种语言及平台中集成的 各种智能功能。 据介绍,苹果通过开发新的模型架构来提高这两个模型的效率。对于设备端模型,将整个模型按 5: 3 的深度比分为两块。块 2 中的所有键值(KV)缓存都直接与块 1 最后一层生成的缓存共享,由此 将键值缓存的内存占用量降低了 38.5%,同时显著改善了首个 token 生成时间(time-to-first- token)。 苹果还引入并行轨道专家混合 (PT-MoE) 设计,为服务器端模型开发出一套新架构。此模型由多 个较小的 Transformer(即「轨道」)组成,它们独立处理各 token,仅在各轨道块的输 ...
AI大模型重塑学习硬件:从工具到伙伴 | 网易有道孟旭
AI前线· 2025-06-09 05:51
作者 | 孟旭 编辑 | 李忠良 策划 | AICon 全球人工智能开发与应用大会 在近期举办的 AICon 全球人工智能开发与应用大会·上海站(2025) 现场,网易有道词典笔产品负责人孟旭以一款全新的 AI 原生硬件 【有道 AI 答疑笔】 为例,分享了智能学习硬件在大模型技术催化下的变革逻辑——从解决单一需求的"学习工具",进化为陪伴学习的"智能伙伴"。 孟旭指出,从多年的经验和认知出发,有道智能学习硬件的进化本质是 用户需求、硬件创新与 AI 技术三者的螺旋推进,三者像齿轮一样咬合转动,推 动产品进化 。即使是在大模型爆发的当下,纯软件升级或者纯硬件创新都更像是炫技,唯有软硬结合才能让技术润物无声地渗入场景,去解决用户的真 问题 ,这也是垂类硬件在技术爆发时代的生存法则。 以下根据演讲实录整理(部分内容有删改),供大家深入了解: 大家好,我来自网易有道硬件产品团队,我叫孟旭。 现在 AI 可以说无处不在了,作为智能学习硬件的产品团队,我们也一直在思考:当 AI 教育碰撞,如何让这项前沿技术真正成为孩子学习成长路上的"智 慧引路人"? 如何突破传统学习工具的局限,解决孩子在学习过程中遇到的实际痛点,为他 ...
Yann LeCun 炮轰 Anthropic CEO!这人“既要又要”:要么太自大、要么不诚实
AI前线· 2025-06-09 05:51
整理 | 褚杏娟 向来直言不讳的 Yann LeCun,这次将"大炮"轰向了 Anthropic CEO Dario Amodei。 Thread 线程最后,Yann 还附加了一个链接,内容是 Dario Amodei 当地时间月 5 日在纽约时报发表 的文章:Anthropic 首席执行官:别让 AI 公司轻易脱责(Anthropic CEO: Don't Let AI Companies off the Hook)。 这篇文章主要还是 Amodei 用来反对被特朗普称为"美丽大法案"(One Big Beautiful Bill Act) 的 《HR1》法案,其中有一项关于 AI 监管的内容是,将禁止美国各州在从法案颁布之日算起的未来十 年内"执行任何监管 AI 模型、AI 系统或自动决策系统的法律或法规"。Amodei 认为这个"十年禁令是 一种过于一刀切的手段。"他还在文中既肯定了 AI 的巨大前景,也描述了其可能带来的社会风险。 随后,有人问他 Anthropic CEO 是 AI 末日论者还是 AI 狂热爱好者,Yann 直接回道: 他是个"AI 末日论者",但他仍在研究 AGI!这只有两种可能: ...
曝豆包多模态负责人准备离职;马云频繁要求汇报 Qwen3 开发进度;北大“韦神”粉丝破2000万,评论区变高考许愿池 |AI周报
AI前线· 2025-06-08 05:16
整理 | 傅宇琪、褚杏娟 摘要:知情人士:马云频繁要求汇报 Qwen3 开发进度;王兴兴获新职务!宇树科技完成股改,最新 估值 100-150 亿元;马斯克提议成立"美国党"获得 80.4% 支持,特朗普:我和马斯克的关系已经结束 了;字节或又损失一名大模型猛将;3 倍薪资挖人!曝京东"偷袭"飞猪携程去哪儿,转战酒旅平台; 裁员 3500 人!花旗精简上海和大连技术团队,赔偿最高达 N+6;美国计划再次延长 TikTok 禁令的 最后期限…… 行业热点 知情人士:马云频繁要求汇报 Qwen3 开发进度 据报道,阿里巴巴集团在人工智能领域的布局已取得重大进展。尽管曾面临内部业务部门对 Qwen 模型功能的不满,但如今阿里巴巴已在全球开源人工智能领域取得领先地位。 截至今年 1 月,超过 29 万客户在使用其 Qwen 模型,涵盖汽车、医疗保健、教育和农业等多个行 业。阿里巴巴的 Qwen3 模型在多项基准测试中表现优异,超越 Meta 的 Llama 等模型。 此外,据两位知情人士透露,连已卸任高管职务六年的阿里巴巴创始人马云,也频繁要求阿里云首席 技术官周靖人汇报 Qwen3 的开发进度。这显示了 Qwen3 ...
对 MCP 的批判性审视
AI前线· 2025-06-08 05:16
作者 | Rasmus Holm 译者 | 王强 策划 | 褚杏娟 MCP 是一个开放协议,它标准化了应用程序向 LLM 提供上下文的方式。可以把 MCP 想象成 AI 应用 程序的 USB-C 端口。正如 USB-C 提供了一种将设备连接到各种外设和配件的标准化方式一样,MCP 也提供了一种将 AI 模型连接到不同数据源和工具的标准化方式。 —— Anthropic 我希望这到头来会是我自己的技能问题,也希望我遗漏了一些东西。 在过去的一段时间里,MCP(模型上下文协议)——它可以让 LLM 成为代理并与世界互动——真的 火了起来。这个想法很简单:让我们为 LLM/ 代理标准化一个 API,让它们与世界互动,并定下将这 些信息告知 LLM/ 代理的方式。 事情发展得非常快,IBM 最近发布了他们自己的 MCP"正交标准",称为代理通信协议 (ACP),紧随 其后,谷歌发布了 Agent2Agent (A2A)。 MCP 服务器和客户端每天都有新的构建和发布,可以在 mcp.so 和 pulsemcp.com 等网站上找到。 然而,让我惊讶的是成熟工程实践实在太少了。所有主要参与者都花费了数十亿美元来训练和微 ...