Workflow
Claude Code
icon
Search documents
Dwarkesh最新播客:AI 进展年终总结
3 6 Ke· 2025-12-24 23:15
这两人上播客的次数屈指可数,能采访到这两个人,大概能说明 Dwarkesh 在美国 AI 圈的地位。 Dwarkesh 这个名字,可能很多人有点陌生。但关注 AI 的朋友,一定在最近一段时间里,看到过 Ilya Sutskever 跟 Andrej Karpathy 的播客采访。 他们上的 就是 Dwarkesh 的播客。 这篇文章基于他最新一期播客,汇总了一些他关于 AI 进展的想法。 在这之前,他其实已经在个人网站上更新过相关内容,所以我在文章最后还从那里精选了几个评论。 因为关于 AI 进展,乃至 AGI 的时间线,都是非常主观的话题,所以除了作者的看法,评论区的反馈也很有价值。 Dwarkesh 的一些核心判断: 1.以强化学习为核心的"中训练",正在成为 LLM 的重点突破方向。前沿科技公司正通过所谓的"中训练"(mid-training)把大量具体技能预先塞进模型 里。 Dwarkesh 认为这恰恰是 AGI 还很远的证据,因为如果模型泛化能力很强,那就不需要单独构建那么多强化学习环境,教它操作浏览器或者 Excel。 2.预置技能的想法是很奇怪的,人类劳动力之所以有价值,恰恰是因为训练成本并不笨 ...
Agent元年复盘:架构之争已经结束!?
自动驾驶之心· 2025-12-24 00:58
作者 | 周星星 编辑 | 大模型之心Tech 原文链接: https://zhuanlan.zhihu.com/p/1983512173549483912 点击下方 卡片 ,关注" 大模型之心Tech "公众号 戳我-> 领取大模型巨卷干货 本文只做学术分享,已获转载授权 ,欢迎添加小助理微信AIDriver004做进一步咨询 前言 随着 2025 年即将画上句号,我想对"Agent 元年"根据个人这一年的实践和认知进行一次收敛。 技术观点:Agent 架构之争已定,收敛至以 Claude Code 和 Deep Agent 为代表的「通用型 Agent」形态。 Claude Code 虽然在 2025 年 3 月作为"智能终端编程助手"推出,但其不止于编程。 行业认知: 2025 年作为 Agent 元年,既没有悲观者眼中的"名不副实",也未完全达到乐观者预期的"全面替代",而是处于稳步落地的中间态。 作为一线从业者,我的评价是: 技术已就绪,爆发在局部 。 基于以上背景,本文将从 Deep Agent 为切入点,分享我作为一线开发者在 2025 年的实战感悟。 主要参考资料: Anthropic、Lan ...
账号与身份防线全面失守:黑灰产 Agent 化攻击下,如何用“第一性原理”重建防线?
AI前线· 2025-12-23 09:00
Core Insights - The article highlights the alarming rise of AI-driven cyberattacks, with a report from Anthropic indicating that AI has automated 90% of the hacking process, requiring minimal human intervention [1][3] - The evolution of black and gray market activities is marked by a significant shift towards AI agents, which enhances the efficiency and effectiveness of cybercriminal operations [4][5] Group 1: AI in Cybersecurity - Anthropic's report reveals that AI's capabilities in executing complex attacks have reached unprecedented levels, marking a turning point in cybersecurity [1][3] - The use of AI agents allows for autonomous operations with minimal human oversight, fundamentally changing the nature of digital warfare [4][5] Group 2: Evolution of Black and Gray Markets - The black market has transitioned from mechanical scripts to intelligent agents capable of generating realistic content, significantly lowering the barriers to entry for cybercriminals [5][6] - AI has enabled the mass production of high-quality fake accounts, which can pass Turing tests, thus complicating traditional risk control measures [5][6] Group 3: Defense Mechanisms - To counter the sophisticated AI-driven attacks, defense strategies must evolve to incorporate principles from the physical world and community behavior [9][10] - The "anti-fraud three laws" proposed by industry experts emphasize the importance of diversity, information consistency, and community detection in identifying fraudulent activities [9][10] Group 4: Challenges in AI Models - The introduction of "uncertainty labels" in AI models aims to address the issue of misjudgment caused by ambiguous samples, significantly improving accuracy rates [11][12] - Continuous feedback mechanisms are essential for enhancing the model's ability to recognize ambiguous cases, thereby reducing error rates [13] Group 5: New Paradigms in Risk Control - The traditional "machine review + human review" model is becoming obsolete, leading to the emergence of a new paradigm centered around AI-driven agents [16][17] - This new approach integrates AI machine review, agent-based review, and expert decision-making to enhance the assessment of complex risks [17][18]
LangChain Agent 年度报告:输出质量仍是 Agent 最大障碍,客服、研究是最快落地场景
Founder Park· 2025-12-22 12:02
2025 年,让 Agent 实际投产、落地应用的最大障碍已经不再是成本问题了,而是「质量」。如何让 Agent 输出可靠、准确的内容,仍然是最难的部分。 近期,LangChain 通过对工程师、产品经理、企业高管等 1300 名行业人士进行调查,深度调研了 AI Agent 目前最真实的应用情况。 进入 2026 年,企业对于 Agent 的讨论焦点,已经从「要不要做」全面转向了「如何规模化、可靠且高效地用好」。 6 个关键结论: ⬆️关注 Founder Park,最及时最干货的创业分享 超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 规模越大的企业, 落地 Agent 速度越快 调研数据显示,超过一半(57.3%)的受访者已经将 Agent 投入实际生产,另有 30.4% 的人正在开发且有明确的上线计划。 这一数字比去年的 51% 有了明显增长,行业正在从「概念验证」快速迈向「价值实现」阶段。 规模越大,行动越快 客户服务(26.5%)成为最普遍的 Agent 用例,研究与数据分析(24.4%)紧 ...
赵何娟独家对话李飞飞:“我信仰的是人类,不是AI”
Xin Lang Cai Jing· 2025-12-22 05:27
炒股就看金麒麟分析师研报,权威,专业,及时,全面,助您挖掘潜力主题机会! 来源:Barrons巴伦 最新一期'赵何娟Talk'里,李飞飞教授认为,从"语言生成"到"世界生成",空间智能将在两年内迎来应 用级爆发——但AI永远只是工具,选择权应该始终在我们人类手里。 作者|赵何娟 一切进展都已经比一年前大家的预期要快了很多。李飞飞也在钛媒体这期'赵何娟Talk'里对话里透露, 从"语言生成"到"世界生成",空间智能将在两年内迎来应用级爆发。 随着2025年渐入尾声,有着"AI教母"之称的斯坦福大学教授李飞飞,带着她创立的World labs迎来了一 波又一波的新进展,包括首款商用"世界模型"Marble的发布,这开始让大家终于意识到,原来"世界模 型"并非只是概念,而已经是真实有用的。 回想我第一次见李飞飞教授,已经可以追溯到2017年,在斯坦福大学教学楼内。那一年,刚刚定居硅谷 的陈天桥先生向我和其他几位老朋友介绍了李飞飞教授,他当时特别提到:这是美国最杰出的华人科学 家之一。那时,李飞飞教授发起的ImageNet行动还在如火如荼的进行。我也第一次在与飞飞教授的见面 和交流中学到了一个新的概念:为什么是数据集 ...
大模型的2025:6个关键洞察,来自OpenAI创始人、AI大神“AK”
3 6 Ke· 2025-12-22 04:22
他用"召唤幽灵"(Summoning Ghosts)而非"进化动物"(Evolving/growing Animals)来比喻当前AI的成长模式,解释了为何当前的大语言模 型会展现出"锯齿状"的性能特征——在尖端领域表现如天才,却在基础常识上可能如孩童般脆弱。 此外,卡帕西也对"氛围编程(Vibe Coding)"的兴起、本地化智能体的实用化趋势,以及大语言模型图形界面(LLM GUI)的演进进行 了详实的论述。他强调,虽然行业进步迅猛,但人类目前对这一新计算范式潜力的挖掘尚不足10%,未来的发展空间依旧极其广阔。 卡帕西揭示了一个冷酷却又充满希望的现实:我们正处于从"模拟人类智能"向"纯粹机器智能"跨越的临界点。随着RLVR等技术的普 及,2026年的AI竞争将不再局限于算力的军备竞赛,而是转向对"如何让AI高效思考"这一核心逻辑范式的深度挖掘。 以下为卡帕西年度回顾全文: 北京时间12月21日,OpenAI创始人之一、AI大神安德烈·卡帕西(Andrej Karpathy)发布了名为《2025年大语言模型年度回顾》(2025 LLM Year in Review)的年度深度观察报告。 在这份综述中,卡帕西 ...
近两百万人围观的Karpathy年终大语言模型清单,主角是它们
机器之心· 2025-12-21 03:01
编辑|杜伟 2025 年还有 10 天就要结束,这意味着是时候进行一波年终总结了。 对于人工智能领域而言,2025 年是大语言模型(LLM)快速演进、重磅事件密集出现的一年。 就在昨天,知名 AI 学者 Karpathy 列出了一份清单,记录了他个人认为最重要、也多少有些出乎意料的「范式转变」。 这些真正改变了行业格局、并在概念层面让 Karpathy 印象深刻的变化会落在哪些领域呢?我们接下来一一来看(以第一人称)。 可验证奖励强化学习(RLVR) 2025 年初,几乎所有实验室的 LLM 生产训练流程都像下面这样: 这套流程稳定、可靠,曾长期被视为「工业级 LLM」的标准做法。 预训练(类似 2020 年的 GPT-2/3); 监督微调(SFT,类似 2022 年的 InstructGPT) 基于人类反馈的强化学习(RLHF,约 2022 年) 但在 2025 年,一种新的阶段浮出水面,并迅速成为事实上的标配: 可验证奖励强化学习(Reinforcement Learning from Verifiable Rewards,RLVR) 。 RLVR 的核心做法是,让模型在可自动验证的环境中接受强化学习训练 ...
Karpathy 2025 年度盘点:o3 是真正拐点,Cursor 证明了应用层比我们想象的要厚
Founder Park· 2025-12-20 08:59
文章转载自「赛博禅心」 Andrej Karpathy 在 X 上更新了一篇博客文章,回顾了 2025 年大模型发展。 在文章中,Karpathy 提到,2025 年,是 LLM 令人兴奋的一年。 LLM 正在作为一种全新的智能形态浮现,它们同时比我们预想的聪明得多,也比我们预想的蠢得多。 即便在当前的能力水平下,整个行业也远未实现其 10% 的潜力。 超 17000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。 邀请从业者、开发人员和创业者,飞书扫码加群: 进群后,你有机会得到: 01 可验证奖励的强化学习(RLVR), 与此同时,有太多的想法值得去尝试,从概念上看这个领域依然广阔开放。 正如我今年早些时候 在 Dwarkesh 播客中提到的 ,相信我们将继续见证快速而持续的进步,但同时仍有大量工作要做, 系好安全带。 以下是我个人认为最值得关注的几个「范式转变」,这些变化重塑了整个行业格局,也在概念上给我留下了深刻印象。 TLDR: ⬆️关注 Founder Park,最及时最干货的创业分享 成为新的训练主力 2025 年,可验证奖励的强化学习(RLVR)成为 LLM 训练的新主力环节; ...
Andrej Karpathy年度复盘:AI大模型正在演变成一种新型智能,今年出现6个关键拐点
Hua Er Jie Jian Wen· 2025-12-20 04:41
OpenAI创始人之一,AI大神Andrej Karpathy近日发布年度复盘,称2025年是大型语言模型领域蓬勃发 展的一年,出现了六个关键的"范式转变"拐点。这些变化不仅改变了行业格局,更重要的是揭示了LLM 正在演变成一种全新的智能形态。 12月20日,据硬AI消息,Karpathy在社交平台X上发布的年度复盘中表示,LLM正在演变成一种新型智 能,"比我预期的要聪明得多,同时也比我预期的要笨得多"。 与计算量较小的SFT和RLHF不同,RLVR针对客观且不可作弊的奖励函数,允许更长周期的优化。这种 方法具有极高的"能力/成本比",吞噬了原本用于预训练的算力。2025年大部分能力提升都源于各实验 室消化这一新阶段的"算力积压"。 他指出,今年出现了6个改变行业格局的"范式转变"关键拐点,其中基于可验证奖励的强化学习 (RLVR)成为LLM生产流程中的新阶段,各大实验室将原本用于预训练的算力转向了更长周期的强化 学习训练。 他特别强调了LLM智能的"锯齿状"特征,称这些模型既是博学的天才,又像是思维混乱的小学生。 Karpathy表示,LLM不是在"进化动物"而是在"召唤幽灵",这种全新的智能形态需要用不 ...
卡帕西2025大模型总结火爆硅谷
量子位· 2025-12-20 04:20
鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 2025都有哪些AI趋势,大神 卡帕西 的年终总结,正在火爆硅谷。 6大论断,硬核又颇有启发: 新范式、新应用、新模型……回首望去,过去一年大模型带来的变革让人兴奋。 然而卡帕西大胆预言: 大模型的潜力,才刚刚挖掘10%。 一切不过是刚刚开始…… 2025LLM年度回顾 为什么卡帕西认为大模型潜力只挖掘了10%? 一方面展现出强大的推理能力,另一方面也暴露出潜在的理解缺陷 ,既让人兴奋又让人谨慎,具体包括: RLVR (可验证奖励强化学习) 成为训练新阶段 大模型不应被类比为动物智能 Cursor展现了大模型应用的Next Level Claude Code加速端侧智能体普及 Vibe Coding将重塑软件行业 Nano Banana重塑人机交互 RLVR成为训练新阶段 在年初之前,全世界的大模型都基本遵循以下训练范式: 而到了2025年,RLVR开始加入其中。 模型通过在可自动验证的奖励环境中进行强化学习训练,会自发地形成推理策略,比如将问题分解为中间计算、循环计算等,具体可参考 DeepSeek R1 。 而这些策略如果用旧范式其实极难实现,因为大模 ...