机器之心

Search documents
Claude Code凭什么牛?大模型团队天天用自家产品,发现bug直接就改了
机器之心· 2025-09-04 07:04
Core Insights - Anthropic recently announced a $13 billion funding round, bringing its valuation to $183 billion, second only to OpenAI's historic $40 billion funding in March 2025 [1] - Despite some user complaints regarding its flagship product, Claude Code, which has been reported to have "dumbing down" issues, the product has successfully captured a significant user base, reaching 115,000 users within four months of launch [3] Group 1: Product Performance and User Experience - Claude Code is designed with a philosophy of simplicity and high scalability, focusing on real user experience over benchmark evaluations [3] - The transition in programming workflows has shifted from manual coding and copy-pasting to a more hands-off approach where developers instruct agents to execute code modifications [6][7] - The evolution of models and tools, particularly Claude Code, has significantly improved programming capabilities, allowing for better integration of context management and tool usage [9] Group 2: Feedback and Iteration - Rapid feedback response is crucial for product improvement, with the team actively addressing bugs and user suggestions to foster a continuous feedback loop [15][17] - The internal feedback mechanism for Claude Code remains highly active, contributing to the product's rapid iteration and enhancement [17] Group 3: Future Developments and User Adaptation - The next 6 to 12 months will see a deeper integration of manual and automated programming, with Claude Code evolving to handle more complex project management tasks [20][21] - Developers are encouraged to adapt to these changes by focusing on core programming skills while also embracing creativity and innovation in project development [23] - New users are advised to first understand existing codebases with Claude Code before attempting to generate new code, emphasizing a strategic approach to task complexity [24][29]
全奖读AI!人工智能专业排名全球前10的MBZUAI启动本硕博项目招生
机器之心· 2025-09-04 04:11
机器之心发布 机器之心编辑部 在阿联酋 2031 国家人工智能战略的驱动下,穆罕默德・本・扎耶德人工智能大学(MBZUAI) 正以 AI 专业学术全球排名前十的硬实力,重塑 AI 教育格局。这所 由阿联酋总统创立的学术引擎,不仅承载着中东向科技转型的雄心,更以丰厚奖学金覆盖所有学位项目,为全球优秀人才铺就一条通往未来的黄金大道。 迎向未来:国家战略背书的 AI 学术高地 2017 年,阿联酋总统穆罕默德在石油经济腹地播下一颗 AI 种子 —— 启动了《阿联酋人工智能战略 2031》(UAE National Strategy for Artificial Intelligence 2031),目标是在 2031 年使阿联酋成为全球人工智能领域领导者。 在能源、物流、旅游、医疗、教育、网络安全等九大优先行业部署人工智能,通过概念验证资金和政府 — 企业联合试点,提升国家核心竞争力。 引入全球顶尖科研力量,共建 MBZUAI(全球第一所专注于研究人工智能的大学)、国家虚拟研究院、"思想家计划" 等,形成区域人才高地。 通过设立加速器、20 亿迪拉姆创新基金、外资激励计划,培育本土初创企业,吸引外国直接投资。 打造 ...
SIGCOMM 2025|重新定义个性化视频体验,快手与清华联合提出灵犀系统
机器之心· 2025-09-04 04:11
近日,快手与清华大学孙立峰团队联合发表论文《Towards User-level QoE: Large-scale Practice in Personalized Optimization of Adaptive Video Streaming》,被计算机网络领域的国际顶尖学术会议 ACM SIGCOMM 2025 录用。该论文提出了一种创新的视频流优化系统 —— 灵犀系统,这是业界 首个成功部署在大规模生产环境中、面向用户个性化体验的自适应视频流优化系统。 ACM SIGCOMM 是全球计算机网络领域历史最悠久、声望最高的旗舰学术会议之一。该会议对论文的质量和创新性有着极为严苛的标准,每年录用率极 低。入选 SIGCOMM 的论文通常代表了网络研究的最新突破和未来方向,不仅要求研究工作具有坚实的理论基础和系统性的实践验证,更强调其对学术界 和工业界的深远影响。历史上,从奠定互联网基石的 TCP/IP 协议到引领网络变革的软件定义网络(SDN)等诸多里程碑式的技术,都曾在 SIGCOMM 上 首次亮相,深刻推动了全球网络技术的发展与演进。 视频流体验的个性化优化在学术界与工业界已进行诸多探索。然而,现有的方 ...
长视频AI数字人来了!字节×浙大推出商用级音频驱动数字人模型InfinityHuman
机器之心· 2025-09-04 04:11
机器之心发布 机器之心编辑部 随着内容创作智能化需求的爆发,长时长、高质量数字人视频生成始终是行业痛点。近日,字节跳动商业化 GenAI 团队联合浙江大学推出商用级长时序音频驱动 人物视频生成模型 ——InfinityHuman,打破传统音频驱动技术在长视频场景中的局限性,开启 AI 数字人实用化新征程。 从静态图像到动态视频: 音频驱动的 "数字复活术" 只需提供一张人物图像与对应音频素材,InfinityHuman 就能自动生成连贯自然的高分辨率长视频:无论是 30 秒的产品快推、还是 3 分钟的演讲致辞,均能实现专 业级呈现。技术团队演示中,仅凭一段音频即可让电影中的人物复活 " 为动态数字人,视频效果生动自然,肢体动作与语音节奏高度同步。 该图由 AI 生成 核心突破:攻克长视频两大技术难关 InfinityHuman 的关键优势在于创造性解决了长期动画中的两大核心难题: 商用场景全面落地,推动数字人技术实用化 从项目主页展示的案例来看,InfinityHuman 已实现多场景商用级应用: 尤其值得关注的是,该模型对中文语音的支持效果尤为出色,在分钟级长视频中仍能保持身份稳定与手部动作自然,充分满足中 ...
让具身智能体拥有「空间感」!清华、北航联合提出类脑空间认知框架,导航、推理、做早餐样样精通
机器之心· 2025-09-04 03:27
想象一下这样的早晨: BSC-Nav 在真实环境中执行「制作早餐」的移动操作任务 这并非科幻片中的桥段,而是来自清华大学与北京航空航天大学团队的最新成果——BSC-Nav 的真实演示。通过模仿生物大脑构建、维护空间记忆的原理,研究 团队让智能体拥有了前所未有的「空间感」。 这项工作发布后,立刻引起了业界的关注。有同行评价道:「 BSC-Nav 证明了它学习和适应不同环境的强大能力,这可能引领我们迈向更智能的导航机器人时 代。 」 你还在被窝里,你的机器人管家已经在厨房里忙碌了起来:它熟练地导航到燕麦罐、可可球、牛奶,逐一抓取并添加到碗中,最后,它将一碗搭配好的营养早餐 送到你的面前,整个过程行云流水, 无需任何人工干预 。 BSC-Nav(Brain-inspired Spatial Cognition for Navigation)是首个受生物大脑空间认知机制启发的统一框架。它不仅赋予了智能体卓越的通用导航能力,还使其能 够完成主动具身问答、复杂移动操作等更高阶的空间感知与交互任务。 当前,以多模态大模型(MLLMs)为代表的基座模型几乎无所不能,我们距离通用人工智能(AGI)还有多远?一个公认的瓶颈在于: ...
特斯拉下一代金色Optimus原型现身?一双「假手」成为最大槽点
机器之心· 2025-09-04 03:27
一大早,特斯拉的人形机器人 Optimus 整了个「大活」。 Salesforce CEO Marc Benioff 发布了一个短视频,视频中他与一个周身涂抹为金色的 Optimus 进行了一些对话,并盛赞其开启了物理智能体革命,并成为生产力变 革者。 价格也异常高昂,达到了 20 万到 50 万美元 。他还 @了一下马斯克。 马斯克也现身评论区并留言互动。 | 机器之心报道 | | --- | | 机器之心编辑部 | 有眼尖的网友表示,马斯克本人就潜伏在背景里面。 不过,这不是「金色擎天柱」的首次现身,去年就有博主爆料特斯拉打造了一个金色 Optimus,并且还有手部细节。 我们先来看这段视频: 人与机器人之间的对话内容是这样的: 令人啼笑皆非的是,评论区有人表示这是为了防止手部设计被抄袭。 有人做了大胆猜测,「 这很可能是 Optimus 2.5 或 V3 ,它比 Optimus 2 更轻盈。看起来去掉了一些多余的部件,并在设计上做了一些简化。显然,手部的设计目 前还处于保密状态。」 该说不说,Optimus 走起路来虽然略显迟钝,但还是很稳的: 评论区很多人被 Optimus 如此高的价格震到了。根据此 ...
ICCV 2025 | 基于时序增强关系敏感知识迁移的弱监督动态场景图生成
机器之心· 2025-09-03 08:33
该论文的第一作者和通讯作者均来自北京大学王选计算机研究所,第一作者为博士生徐铸,通讯作者为博士生导师刘洋。团队近年来在 TPAMI、IJCV、 CVPR、ICML 等顶会上有多项代表性成果发表,多次荣获国内外多模态理解预生成竞赛冠军,和国内外知名高校、科研机构广泛开展合作。 本文主要介绍来自该团队的最新论文:TRKT: Weakly Supervised Dynamic Scene Graph Generation with Temporal-enhanced Relation-aware Knowledge Transferring。该任务针对弱监督动态场景图任务展开研究,发现目前的性能瓶颈在场景中目标检测的质量,因为外部预训练的目标检测器在 需要考虑关系信息和时序上下文的场景图视频数据上检测结果欠佳。 本文针对该问题提出了一种时序增强关系敏感知识迁移的方法,通过获取关系和时序信息感知的注意力图来优化外部目标检测器的检测结果,从而提升在场 景图数据上目标检测质量,进而提升最终的生成场景图效果。 动态场景图生成任务旨在通过检测物体并预测它们之间的关系,为视频的每一帧生成对应场景图。 弱监督动态场景图生成要求模 ...
刚刚,谷歌放出Nano Banana六大正宗Prompt玩法,手残党速来
机器之心· 2025-09-03 08:33
最近几天,谷歌 Nano Banana 可是被广大网友玩出了新花样。 比如制作精致可爱的产品照片: 来源: https://x.com/azed_ai/status/1962878353784066342 机器之心报道 机器之心编辑部 来源: https://x.com/MrDavids1/status/1960783672665128970 原文链接:https://x.com/googleaistudio/status/1962957615262224511 根据这些提示,你可以进行以下操作: 将 13 张图像合并为单个图像 : 给人一键换衣: 反正你想到的,想不到的脑洞,都被广大网友挖掘出来了。 但别忘了,这些效果可不是凭空生成的。背后真正的魔法,其实是提示词。网友们正是用一条条巧妙的提示词,把这个模型玩出了无限可能。 就在刚刚,谷歌官方公布了 Nano Banana 六个文本转图像提示: 模板如下: A photorealistic [shot type] of [subject], [action or expression], set in [environment]. The scene is ...
Anthropic承认模型降智后仍放任其偷懒?Claude Code用户信任崩塌中
机器之心· 2025-09-03 08:33
| | | 还记不记得每一次 OpenAI 发布新功能或新模型的时候,总会有一些评论声称现有模型能力下降,怀疑大模型「降智」现象的声音不绝于耳。 排除掉一些有关 OpenAI 对部分地区账户的用户分级机制导致的显著降级情况,普通用户也会感觉到大模型时不时的出现问题。 机器之心编辑部在测试 GPT-5 的时候,感觉模型能力不及预期,也会怀疑是否有「降智」现象的存在。 他的意思是,大家(包括他自己)经常会错误地认为某个 AI 模型被实验室「削弱」了,而这种错误认知的发生率远高于他的预期。他甚至觉得,这是一种普遍的 心理错觉,应该被定义成一种新的心理学现象。 但无论如何,此前大模型供应商似乎从来没有正面承认过模型「降智」的问题,用户的感知也朦朦胧胧的。 OpenAI 的研究科学家 Aidan McLaughlin 前两天发推聊到了这个现象。 但他很快就被库库打脸了。 几天前,Anthropic 发布了旗下模型 Claude Opus 4.1 和 Opus 4 的质量降级事件报告。很罕见地,大模型厂商公开承认模型「降智」的现象。 | Resolved | This incident has been resolved ...
其实,扩散语言模型在最终解码之前很久,就已确定最终答案
机器之心· 2025-09-03 04:33
机器之心报道 编辑:陈萍 随着扩散语言模型(DLM)在各个领域的快速发展,其已成为自回归(AR)模型有力的替代方案。与 AR 模型相比,DLMs 的主要优势包括但不限于:高效的并 行解码和灵活的生成顺序。 尽管 DLMs 具有加速潜力,但在实际应用中,其推理速度仍慢于 AR 模型,原因在于缺乏 KV-cache 机制,以及快速并行解码所带来的显著性能下降。 本文,来自香港理工大学、达特茅斯学院等机构的研究者尝试从一个不同的角度来加速 DLMs 推理,这一思路源于一个长期被忽视却极具潜力的现象: 早期答案 收敛 。 论文标题: Diffusion Language Models Know the Answer Before Decoding 通过深入分析,研究者观察到:无论是半自回归重掩码还是随机重掩码场景下,有极高比例的样本在解码早期阶段即可获得正确解码。这一趋势在随机重掩码中 尤为显著,以 GSMK 和 MMLU 数据集为例,仅需半数优化步骤即可分别实现 97% 和 99% 的样本正确解码。 受此发现启发,该研究提出了 Prophet ,一种无需训练的快速解码策略,该策略专为利用早期答案收敛特性而设计。Pr ...