上下文

Search documents
AI coding的雄心、困局与终局
3 6 Ke· 2025-05-23 00:02
这个5月, AI coding(AI 编程)领域发生了不少标志性事件。 5月3日,苹果与初创公司Anthropic联手开发由AI驱动的Vibe Coding(氛围编程)平台;三天后,OpenAI被曝将以30亿美元收购AI编程新锐Windsurf;5月 17日,OpenAI又推出集成于ChatGPT的Codex智能体,实现自动生成、调试和优化代码;美团在5月20日宣布将上线一款AI编程类工具"NoCode",则为这 场竞赛注入 "中国变量"。 可以说,在全球范围内,AI coding工具正爆发式涌现。从GitHub Copilot,到火爆出圈的Cursor、Devin,再到国内字节推出的Trae、阿里发布的通义灵 码,在大模型的助推下,AI coding正在从单纯的 代码补全 向更为 智能化、一站式 的方向演进。未来,AI coding能否实现 执行完整编程任务 的雄心?AI coding将沿着何种路径演进,最终又将去向何方? 在「What's Next|科技早知道」的播客节目中,峰瑞资本投资合伙人 陈石 和「声动活泼」联合创始人&「科技早知道」主播 丁教Diane ,以及「科技早 知道」节目监制 雅娴 ,围绕 ...
AI编码新神登基,藏师傅一手Claude 4实测
歸藏的AI工具箱· 2025-05-22 18:00
Claude 4 就这么低调的发布了,之前他们 CEO 说27年所有的代码都会由AI生成,现在看来应该就是看到了 Claude 4的潜力。 根据 Anthropic 所说 Claude Opus 4 是全球最佳编码模型,在复杂、长期运行的任务和代理工作流中表现持 续优异。 基础介绍 还有一些其他的发布内容,包括: 最重要的定价: Claude Sonnet 4 会向免费用户开放,这太好了。 API上定价与之前的 Opus 和 Sonnet 模型保持一致:Opus 4 每百万 token 输入/输出价格为 15/75 美元, Sonnet 4 为 3/15 美元。 模型能力 Claude Opus 4 的编码能力在 SWE-bench(72.5%)和 Terminal-bench(43.2%)上大幅领先其他模型, 而且它在需要集中精力和数千步操作的长时间任务中表现出持续稳定的性能,能够连续工作数小时,这个对于 Agent产品非常重要。 扩展思维与工具使用(测试版):两款模型在扩展思维过程中均可使用工具。 新模型能力:两款模型均可并行使用工具,更精准地遵循指令,并且在开发者授予本地文件访问权限时, 展现出显著增强 ...
CEO的智囊团,实习生的救命稻草:这个飞书功能如何让所有人都变高效
歸藏的AI工具箱· 2025-05-21 07:18
飞书前几天发布了知识问答功能,本来以为就跟一些硬件产品的自带的 AI 功能一样是用来增加附加值的。 结果试了一下很强啊,而且跟你组织的数据是相辅相成的,数据和记录越多这个 AI 的能力越强,不管你是高 管还是一线同学在工作中都有相当大的帮助。 简单介绍一下: 飞书知识问答是企业知识的企业专属 AI 问答工具。 当你在工作中遇到问题可以向它提问,他会根据互联网知识以及你在组织中有权限访问的数据消息、文 档、知识库、文件等信息回答你的问题。 也可以用它帮助自己进行内容创作,获得更多的业务了解。 企业能力 这里因为我自己没有合适的飞书组织借用了 AJ 的 Way to AGI 组织进行体验。 刚好她们最近在筹备全球 AI 大会的东京站有非常多的调动和准备工作,很适合我自己模拟一个新加入的员工 使用飞书知识问答来了解信息和跟上进度。 比如我临时要参与这个项目,我肯定需要了解这个项目的筹备进度,但是整个项目有非常多的相关文档,一个 一个看完非常费劲,而且还得边看边记录将又用的信息记录下来,非常耗时。 有了飞书知识问答之后我就可以直接向它提问,查询准备的进度。 可以看到飞书知识问答给出的结果非常精 确而且简练,我可以快速 ...
老黄唱衰编程,GitHub CEO硬刚:放弃写代码等于放弃智能体未来话语权
量子位· 2025-05-19 09:39
在最新的媒体采访中,GitHub CEO托马斯·多姆克正面battle最近甚嚣尘上的"编程无用论"。 在他的构想中,2025年是属于编程智能体的一年,但未来仍然属于全体人类程序员。 鹭羽 发自 凹非寺 量子位 | 公众号 QbitAI 「不要学习编程」是错误的! 网友们纷纷表示:终于!看到有人说相反的话了。 与他一同接受采访的CPO马里奥·罗德里格斯,更是直言不讳地说道: 我们将用Copilot增强个人能力,并且我们在这方面相当成功。 在过去的一年里,这家以"帮助程序员编写更好的代码"为使命的公司,先后推出了 Workspace 、 Project Padawan 等多个SWE (软件工 程) 智能体产品,一经发布就引爆互联网讨论热潮。 更是在Microsoft最新的季度收益报告中,CEO指出,Copilot现拥有的 1500万 用户,同比增长 4倍 ,皆是源于免费开放的Copilot层。 而在智能体角逐更加激烈的2025年,GitHub仍然抱有野心: 我们正在进入第二波——下一步是软件开发的下一次演变。 来看看具体讨论细节。 2025年:SWE智能体之年 两位高层一致认为,2025年的SWE演变将完全围绕 ...
a16z:Git 将被取代,AI 时代的 9 种全新软件开发模式
Founder Park· 2025-05-12 11:38
本文转载自「深思圈」 未来,对于开发者来说,AI 不再是工具,而是构建软件的全新基础。 基于 AI Agent 驱动下,版本控 制、模板、文档,甚至用户概念正在被重新定义。 近日,a16z 发文提出了 9 个未来开发者趋势,虽然还处于早期阶段,但都是基于真实的痛点,非常具 备前瞻性。这些趋势包括重新思考 AI 生成代码的版本控制,到大语言模型驱动的用户界面和文档。 TLDR: Founder Park 正在搭建「 AI 产品市集」社群,邀请从业者、开发人员和创业者,扫码加群: AI Agent 编写或修改大量代码,开发者更关注代码输出是否符合预期,而不是具体的代码行。这 就导致「真相的上移」,prompt 和测试组合成为新的「真相」,进而促使意图驱动的版本控制出 现,未来可能将 prompt + 测试包作为可版本化的单元来跟踪。 传统仪表板是静态的,展示固定的指标,用固定的方式。但 AI 驱动的仪表板可以根据用户当前 的任务、角色、甚至过去的行为模式来重新配置。 文档正在逐步演变为交互式知识系统,这些系统具备语义搜索能力,可以作为编码 Agent 的上下 文来源。未来的文档可能会有三个层次:人类阅读层(有故事 ...
ICML 2025 | 注意力机制中的极大值:破解大语言模型上下文理解的关键
机器之心· 2025-05-06 04:11
研究亮点 极大值如何影响模型性能 当我们谈论大型语言模型的理解能力时,通常将其知识分为两类:参数知识(存储在模型权重中的事实和信息)和上下文知识(从当前输入文本中获取的信 息)。本研究通过一系列精心设计的实验,揭示了自注意力模块中极大值的存在与上下文知识理解之间的关键联系。 大型语言模型(LLMs)在上下文知识理解方面取得了令人瞩目的成功。 近日,一项来自 ICML 2025 的新研究《Massive Values in Self-Attention Modules are the Key to Contextual Knowledge Understanding》揭示了大型语言模型中一个重要 现象:在注意力机制的查询 (Q) 和键 (K) 表示中存在非常集中的极大值,而在值 (V) 表示中却没有这种模式。这一现象在使用旋转位置编码 (RoPE) 的现代 Transformer 模型中普遍存在,对我们理解 LLM 内部工作机制具有重要意义。 本研究由罗格斯大学张永锋教授的团队完成,一作为金明宇,罗格斯大学博士生,在 ACL、ICML 、AAAI 、NAACL 、COLM 、ICLR 、EMNLP 、COLIN ...
Claude网页版接入MCP!10款应用一键调用,开发者30分钟可创建新集成
量子位· 2025-05-02 04:36
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI MCP逐渐行业标准,提出者Anthropic也官宣了Claude两项重大的针对性更新—— 目前两项更新已向Max、Team和Enterprise用户开放,并在之后覆盖到Pro用户。 Hacker News网友评论说,这是否意味着"万物皆应用"的时代即将开始,大模型的SaaS (软件即服务) 时代就要来临了? 还有人表示,现在只要运行一个自定义网站、连接一个 MCP,就可以享受所有以前SaaS需要付费购买时所需的智能功能,仅凭这一点,未 来十年的OSS就会变得十分有趣。 除此之外,Claude还宣布,网页搜索功能已经面向所有付费用户开放。 Claude网页版接入MCP MCP (模型上下文协议) 是Anthropic提出的一种通信协议,可以实现 大模型应用与外部数据源和工具之间的无缝集成 ,帮助AI获得所需 的上下文数据,生成质量更高、与任务更相关的回答。 目前,MCP已经获得了业界的广泛认可和采用,正在逐渐成为行业开放标准,Anthropic将其比喻成AI应用的Type-C接口。 新增了Integration功能, MCP协议在网页版中也能调用了 ; R ...
当聚合出现误导时
Shi Jie Yin Hang· 2025-05-01 23:10
公共披露经授权 公共披露经授权 公共披露经授权 公共披露经授权 政策研究工作论文 11110 当聚合具有误导性 在贫困的单元级小区域估计中的偏差 with Aggregate Data Paul Andres Corral Rodas 贫困与公平全球部门 2025年5月 政策研究工作论文11110 摘要 本文探讨为何仅使用汇总数据作为协变量的家庭层 面模型所产生的小区域贫困估计值存在系统性偏差 。分析表明,这种偏差源于模型无法捕捉家庭间福 利的完整变异,因为它们完全依赖于在家庭层面汇 总的协变量, 在地理层面上。通过基于模型的模拟,该论文表 明,当模型模拟的福利经验变异度最接近区域层 面的福利真实经验方差时,这些模型中的偏差最 小。这一发现也对单元层面的模型偏差具有启示 意义。 This paper is a product of the Poverty and Equity Global Department. It is part of a larger effort by the World Bank to 提供对其研究的开放获取,并为全球发展政策讨论做出贡献。政策 研究工作论文也发布在网站 http: ...
记者实测|智能体按下“加速键” 大厂争当MCP“应用商店”
Bei Ke Cai Jing· 2025-04-30 08:40
随着Manus的推出以及MCP(模型上下文协议)概念的走红,各大厂商今年4月按下了智能体发展的"加速键"。4月9日,阿里云百炼上线MCP服务;4月16 日,蚂蚁智能体平台百宝箱推出MCP专区;4月18日,字节扣子空间开启内测,其提供了MCP扩展;4月23日,360纳米AI发布"MCP万能工具箱";4月25 日,李彦宏在百度AI开发者大会上展示了千帆、心响等多个百度系产品接入MCP的案例;4月29日,蚂蚁数科发布智能体开发平台Agentar,正内测上线国内 首个金融MCP服务广场。 不同厂商的智能体提供了哪些服务?通过MCP接入其他软件的智能体与此前有哪些差异?MCP协议是否安全,其广泛推广是否会颠覆原来的商业模式?对 此,新京报贝壳财经记者采访了多名AI从业者,并对不同厂商的"智能体+MCP"服务进行了实测。 实测智能体接入MCP:打破软件壁垒,效率和准确性明显提升 新京报贝壳财经记者曾在4月10日实测过阿里云百炼推出的MCP服务,彼时该平台由国内厂商提供的MCP还只有高德地图一家。4月29日,记者发现在百炼 平台上开通MCP服务的国产厂商逐渐增多,包括盈米基金、广发证券、美图、ChatPPT等,提供的服务涵 ...
MCP如何成了智能体爆发的“导火索”?
3 6 Ke· 2025-04-29 02:34
这时,距离Manus发布还不到两个月。 3月6日,顶着全球首款通用AI智能体的头衔,Manus正式对外发布。 作为初代AI智能体,Manus可以自主调用互联网工具,自主执行诸如文章和研报编写、PPT制作等工作。 曾经在国内风评两极分化的Manus,近日被曝出在国外拿到了7500万美元的新一轮融资,估值近5亿美元。 一个程序员的新时代就此悄悄开启。 不过,Manus后来卷入套壳风波,行业风评不及预计…… 实际上,Manus真正的价值不在于它拥有多强大的功能,而是它在适当的时间打开了AI智能体的这扇大门。 更重要的是,Manus验证了研发AI智能体的模型上下文协议的可行性。 模型上下文协议MCP,由此也成了被视为AI智能体元年的2025年的"开年第一课"。 01 "叛逃者"的胜利时刻 2024年11月25日,差不多是ChatGPT发布两周年之际,OpenAI的"劲敌",也是OpenAI"出逃"的前员工们创办的大模型独角兽企业Anthropic在官网发布了 一篇博客。 在这篇博客中,Anthropic官方向公众介绍了一个刚刚开源的大模型协议,模型上下文协议MCP。 什么是MCP? Anthropic在开源文档中给出 ...