AI前线

Search documents
下棋比智商!8 大 AI 模型上演棋盘大战,谁能称王?
AI前线· 2025-09-18 02:28
作者 | Daniel Dominguez 译者 | 田橙 策划 | 丁晓昀 Kaggle 与 Google DeepMind 合作推出了 Kaggle Game Arena,这一平台通过战略类游戏对人工智能模型进行对战评测。 该系统提供了一个受控环境,让不同模型直接对战。每场比赛都会严格遵循所选游戏的规则,系统会记录比赛结果,并据此形 成排行榜。为了保证评测的公平性,平台采用全对全(all-play-all)的赛制,也就是每个模型会多次与其他所有模型对战,从 而减少随机因素的干扰,使结果在统计上更加可靠。 Game Arena 依赖开源组件。平台已将游戏运行环境及规则执行、模型对接等控制模块全面开源。这一设计方便开发者和研究 人员进行检查、复现或扩展。 首批参赛的八个主流 AI 模型包括:Anthropic 的 Claude Opus 4、DeepSeek 的 DeepSeek-R1、Google 的 Gemini 2.5 Pro 与 Gemini 2.5 Flash、Moonshot AI 的 Kimi 2-K2-Instruct、OpenAI 的 o3 和 o4-mini,以及 xAI 的 Grok 4 ...
梁文锋执笔的R1论文登上Nature封面!首次回应外界三大质疑
AI前线· 2025-09-18 02:28
整理|冬梅 9 月 17 日,开源 AI"顶流"DeepSeek 再次引发行业轰动。其推理模型研究论文 DeepSeek-R1,DeepSeek 创始人梁文锋以通 讯作者的名义正式发表在国际顶尖期刊《自然》(Nature)上,并登上当期封面。 这不仅标志着国产 AI 研究迈入世界舞台,也意味着大语言模型首次通过了完整的同行评审,填补了行业空白。 DeepSeek-R1 的核心突破在于,该模型无需依赖大量人工标注的思维链数据,而是借助强化学习(RL)机制,让模型在训练 中自主形成推理能力。研究团队首先基于 DeepSeek-V3 Base 构建出 R1-Zero ,通过只奖励最终预测正确性的方式,引导模 型逐渐学会生成更长、更具逻辑性的回答。随后,团队在此基础上引入多阶段训练,结合监督微调和拒绝采样,最终打造出既 具备强推理性能、又符合人类偏好的 DeepSeek-R1。 在全球开源社区中,DeepSeek-R1 已成为最受欢迎的推理模型之一。截至目前,其在 Hugging Face 平台的下载量已突破 1090 万次 。 新版论文回应质疑, 披露训练细节 与今年初的预印版相比,本次发表于《自然》的论文补充了大 ...
250 个岗位换两亿“求生”资金?巅峰781 亿市值巨头节流押注 AI,CEO急踩 “创业模式” 刹车
AI前线· 2025-09-17 06:17
整理 | 华卫 最初,Fiverr 平台的多数服务都定价为 5 美元(约合 36 元人民币),Fiverr 的名称也源于此。不久之后,随着业务发展, Fiverr 扩大了其服务范围:一方面推出多个层级的订阅服务,另一方面也放开了定价限制,使其服务收费可超过 5 美元。 2021 年 2 月,Fiverr 的市值曾达到约 110 亿美元(约合 781.8 亿元人民币)的峰值,当时其股价每股超过 320 美元。转型消 息发布当日,该公司股价徘徊在每股 23 美元左右,且在消息公布后小幅下跌。有推测指出,Kaufman 发布这一举措,或许也 意在推动股价上涨。 Fiverr 方面保证,预计此次裁员短期内不会对平台各项业务活动产生重大影响。同时,该公司重申了此前发布的 2025 年第三 季度(Q3)及全年(FY25)业绩指引,预计营收将达到 4.25 亿至 4.38 亿美元。Fiverr 表示,"目前我们暂不调整长期调整后 息税折旧摊销前利润率目标,但我们认为,随着我们通过扩大规模及应用 AI 持续提升效率,该目标有望进一步向上突破。" 此外,Fiverr 计划将部分裁员节省的资金重新投入业务发展,剩余部分则将计入调 ...
Hugging Face 发布 FinePDFs:基于 PDF 文档构建的 3 万亿 Token 数据集
AI前线· 2025-09-17 06:17
作者 | Robert Krzaczyński 译者 | 平川 Hugging Face 正式发布 FinePDFs,这是全球最大的纯 PDF 公开语料库。该数据集涵盖了 1733 种语言的 4.75 亿份文档,总 计约 3 万亿个 Token。凭借 3.65TB 的规模,FinePDFs 开创了开放训练数据集的新纪元,让人们可以利用长期以来因为过于 复杂和昂贵而无法处理的资源。 尽管大多数大规模语言模型数据集依赖于 HTML 源,如 Common Crawl,但 PDF 有着独特的优势。它们往往记录了更高质量 的、特定领域的内容,特别是在法律、学术和技术写作领域。然而,从 PDF 中提取可用文本一直都很困难:有些包含嵌入式 文本,其他的需要 OCR,而格式问题可能会使解析工作变得非常复杂。 为了解决了这些挑战,FinePDFs 混合使用了文本提取(Docling)、 GPU 驱动的 OCR(RolmOCR)以及去重、语言识别和 PII 匿名化等技术。Hugging Face 表示,这种双重策略使他们既能大规模地处理文档,又能在面对各种格式时保证提取质量。 该数据集涵盖了广泛的语言,其中英语占比最高,有超过 ...
制造企业如何实现 AI 产品经理“能力复制”?|极客时间 AI 人才培养实践
AI前线· 2025-09-16 04:41
在数智化转型浪潮中,AI 技术已成为企业创新与效率提升的核心驱动力。国务院最新发布的《关于深入实施"人工智能 +"行动的意见》指出,要"创造更 加智能的工作方式, 积极发挥人工智能在创造新岗位和赋能传统岗位方面的作用 ,探索人机协同的新型组织架构和管理模式"。 然而,不少企业发现,即便投入大量资源开展 AI 培训,员工结业后仍难以将所学转化为实际业务价值。 "培训时感觉什么都能做,回到岗位却不知从何下手"-- 这是许多企业 AI 赋能过程中面临的共同痛点。 近期,我们与某国内领先的制造企业(以下简称"该企业")合作,成功交付了一期 AI 产品经理 OMO 训练营,通过"线上 + 线下 + 实战"的混合式培养模 式, 不仅系统提升了 IT 部门产品经理的 AI 能力,更实现了培训结束即能承接实际 AI 项目的实际效果 。 项目背景:30 +AI 项目需求 与人才短缺的矛盾 该企业作为行业龙头,早已意识到 AI 技术对业务升级的战略意义。2025 年,其 IT 部门提出了 30 余个 AI 项目需求,覆盖智能客服、供应链优化、营 销洞察、生产质检等多个核心场景。 然而,与旺盛的需求形成鲜明对比的是,内部具备 AI ...
OpenAI发布新模型硬刚Anthropic!Claude Code刚火,就被GPT-5-Codex拍在沙滩上?
AI前线· 2025-09-16 04:41
OpenA 推出"最卷" 编码智能体 GPT-5-Codex GPT-5-Codex 的一大亮点是其增强的 代码审查功能 ,能够在产品发布前发现潜在的关键错误,帮助开发者提前规避风险。 具体是怎么做到的? 整理|冬梅 9 月 15 日,OpenAI 正式推出一款新模型 GPT-5-Codex ,这是一个经过微调的 GPT-5 变体,专门为其各种 AI 辅助编程工具 而设计。该公司表示,新模型 GPT-5-Codex 的"思考"时间比之前的模型更加动态,完成一项编码任务所需的时间从几秒到七 个小时不等。因此,它在代理编码基准测试中表现更佳。 与静态分析工具不同,Codex 将 PR 的声明意图与实际差异进行匹配,对整个代码库及其依赖项进行推理,并执行代码和测试 以验证行为。只有最细致的人工审查人员才能在审查的每个 PR 中投入如此多的努力,因此 Codex 填补了这一空白——帮助 团队更早地发现问题,减轻审查人员的负担,并更自信地交付。 一旦在 GitHub 代码库中启用 Codex,它就会自动审核 PR,直到 PR 从草稿状态变为就绪状态,并在 PR 上发布其分析。如 果它建议修改,用户可以留在同一个线程中, ...
阿里云CIO首次系统复盘:大模型落地的 RIDE 方法论与 RaaS 实践突破
AI前线· 2025-09-16 04:41
Core Viewpoint - The rapid development of AI large models presents both opportunities and challenges for effective implementation in enterprises, necessitating a systematic approach to overcome organizational and operational hurdles [2][5][9]. Group 1: Organizational Challenges and AI Implementation - Companies face internal discrepancies in AI awareness and capabilities, which complicates the transformation process and the establishment of a culture conducive to AI development [2][8]. - A significant contradiction exists between business departments' expectations of AI capabilities and the actual productivity outcomes delivered by IT departments [8][9]. - The need for substantial investment in AI applications is emphasized, as many enterprises struggle to align technology with business needs effectively [9][10]. Group 2: AI Application Cases - Alibaba Cloud has successfully implemented approximately 28 digital human projects across various scenarios, including document translation, intelligent outbound calling, contract risk review, and employee services [10][13]. - In translation, the use of AI has reduced costs significantly, achieving a translation quality score of 4.6 compared to 4.12 with traditional methods, thus enhancing user experience in overseas markets [15][16]. - Intelligent outbound calling has allowed Alibaba Cloud to scale its customer service capabilities, equating to the service bandwidth of hundreds of human agents [18][19]. - The introduction of digital personnel for contract risk review has streamlined the process, reducing review times from months to real-time risk identification during contract drafting [20][21]. Group 3: RIDE Methodology for AI Integration - The RIDE methodology consists of four key steps: Reorganize, Identify, Define, and Execute, aimed at ensuring successful AI project implementation [28][30]. - Reorganizing involves aligning organizational structures and relationships to better support AI initiatives, while identifying business pain points suitable for AI solutions is crucial [30][42]. - Defining clear operational metrics and product specifications is essential to track the effectiveness of AI applications [47][48]. Group 4: Importance of User Intent and Evaluation - The success of AI applications, particularly in agent models, hinges on understanding user intent and ensuring that the AI meets these needs effectively [64][66]. - Establishing a comprehensive intent space is critical for evaluating AI performance and ensuring that the knowledge base is sufficient to meet user demands [66][70]. - The evaluation of AI performance must consider the absence of standard answers in many tasks, necessitating a focus on qualitative assessments and continuous improvement [72][73].
OpenAI与微软分成曝新料!这家印度老厂哭晕:10年前白捐了10亿美元
AI前线· 2025-09-15 08:08
整理 | 华卫 也就是说,即便如此,微软仍能从投资 OpenAI 的这笔交易中获得约 333.3 亿美元。不过,该报道并未明确这一数字是累计金额还是年度 金额。一位了解相关磋商情况的人士称,两家公司目前还在就 OpenAI 向微软租赁服务器的费用问题进行谈判。但总的来说,微软因早期 就押注 OpenAI 赚了不少钱已是毋庸置疑的事。 值得注意的是,最早更可能与 OpenAI 成为战略合作伙伴关系的支持者并不是微软,而是一家数字化与咨询服务公司。这家公司名为 Infosys,是印度历史上第一家在美国纳斯达克上市的公司。然而,如今他们的股份已"毫无价值"。 OpenAI:营利、IPO 我全都要 自 2019 年以来,微软已向 OpenAI 投资 130 亿美元,并参与 ChatGPT 及其应用程序接口(API)所产生收入的分成。 当前,估值实现惊人跃升的 OpenAI 正试图进行重组并最终实现上市。9 月 3 日,据外媒援引知情人士消息称,OpenAI 正将其二次股票出 售规模扩大逾 40 亿美元,向符合资格的现任及离职员工提供出售约 103 亿美元股票的机会,相比最初 60 亿美元的目标大幅提升。知情人 士表示 ...
2025科技圈最新职位:“Vibe Coding擦屁股工程师”,专治老板们的决策性Bug
AI前线· 2025-09-15 08:08
整理|冬梅、核子可乐 "氛围编码"留下的烂摊子,终究要让那些被裁掉的人回来收拾。 自生成式人工智能兴起以来,许多人担心它会对人类员工的生计造成损害。如今,CEO 们也开始承 认人工智能的影响,裁员人数也开始增加。 CEO 希望利用 AI 替换到大批开发者 根据招聘网站 Indeed 的最新报告,科技职位招聘数量较 2020 年下降了 36%。其中一部分裁员是因 为 CEO 想用人工智能(AI)取代员工。 有不少科技公司已开始以 AI 和自动化为由,明确裁员或冻结招聘。今年 5 月,行业巨头 IBM 用人工 智能取代了数百名人力资源员工,这也是其大规模裁员计划的一部分,该计划共裁撤了 8000 名员 工。同样在 5 月,语言学习应用程序多邻国(Duolingo)的首席执行官路易斯・冯・安表示,公司 将不再雇佣承包商从事可由人工智能完成的工作。 "先买后付" 公司克拉纳(Klarna)的首席执行官塞巴斯蒂安・西米亚特科夫斯基在 5 月称,公司已裁 员 40%,部分原因是对人工智能领域的投资。 Workday 首席执行官卡尔·埃森巴赫 (Carl Eschenbach) 在今年早些时候宣布大规模裁员的一封电子 邮件 ...
MCP:构建更智能、模块化 AI 代理的通用连接器
AI前线· 2025-09-14 05:33
由大语言模型(LLMs)驱动的人工智能代理(AI Agents)有潜力彻底改变我们与信息的互动方式并让复杂任务自动化。然而,要真正发挥作用,它们必 须有效地利用外部上下文和数据源,使用专业工具,并生成及执行代码。虽然 AI Agent 能够使用工具,但将这些外部组件集成进来,并使 AI Agent 与这 些工具协同工作一直是重大的难关,通常需要定制的、与框架绑定的解决方案。这导致了生态系统的碎片化,引入重复劳动并带来了难以维护和扩展的系 统。 于是,模型上下文协议(Model Context Protocol,MCP)应运而生。它由 Anthropic 于 2024 年底推出,正迅速成为"AI 的 USB-C"——一个旨在无缝连 接 AI Agent 与它们所需的工具和数据的开放、通用标准。本文深入探讨了 MCP 的含义,它如何增强 Agent 开发,以及它在领先的开源框架中被采用的 情况。我们还讨论了 MCP 解锁的关键能力和其在现实世界中的应用。对于从业者、工程师和研究人员来说,理解 MCP 对于构建下一代强大、上下文感 知和模块化的 AI 系统来说是愈加重要的事情。 理解模型上下文协议 作者 | San ...