Workflow
AI前线
icon
Search documents
评测也很酷,Data Agent 自动化评测的三层框架与实战
AI前线· 2025-12-16 09:40
作者|尹小明 编辑|李忠良 策划|AICon 全球人工智能开发与应用大会 在大模型技术飞速发展的当下,大数据领域的各类应用如雨后春笋般涌现,从数仓开发到 ChatBI 问数,再到深度分析 Agent,这些领域的大模型 应用极大地提升了数据处理和分析的效率。但与此同时,如何科学、准确地评估这些应用的效果,成为了行业面临的重要难题。 InfoQ 荣幸邀请到了字节跳动 / 数据平台大模型评测技术负责人 尹小明 在 AICon 全球人工智能开发与应用大会·深圳站上分享了《 评测也很酷 ——Agent 自动化评测技术创新与实践 》。作为字节跳动数据平台的大模型效果评估团队,他们深耕数据应用 Agent 领域,构建了覆盖从数据开 发到数据应用垂直领域 Agent 应用的评测技术体系,尤其在自动化评测算法、Agent 级评测框架等方面形成了可落地的技术方案。本次分享将聚焦 这一领域的技术细节与实践经验。 12 月 19~20 日的 AICon 北京站 将锚定行业前沿,聚焦大模型训练与推理、AI Agent、研发新范式与组织革新,邀您共同深入探讨:如何构建起可 信赖、可规模化、可商业化的 Agentic 操作系统,让 AI ...
阿里电影级视频模型万相2.6系列上线,功能比Sora2还全,人人都能当导演
AI前线· 2025-12-16 06:39
作者 | 木子 12 月 16 日,阿里发布了新一代 通义万相 2.6 系列模型 。 这次更新不是某一项能力的单点升级,而是 5 款新模型同时上线 ,包括: 文生视频、图生视频、参考生视频、图像生成,和文生图 ——覆盖从图像到 视频、从一次性生成到可复用创作的多个关键环节。 万相,是阿里"通义大模型家族"的一员(此外还有千问、百聆等)。初代万相于 2023 年 7 月上线,最早以图像生成能力为主,并率先面向企业用户开 放测试。 经过 2 年多的发展,今年 9 月阿里率先在国内发布音画同步的视频生成模型万相 2.5,极大提升视频创作的效率,在权威大模型评测集 LMArena 上, 万相图生视频位居国内第一。 如今的 万相 2.6 更是成为了 国内首个支持角色扮演功能的视频模型, 画质、音效、指令遵循等能力也进一步提升了,单次视频时长实现国内最高的 15s,还新增了角色扮演和分镜控制功能,不仅能一键完成单人、多人、人与物合拍的视频,还能自动实现多镜头切换等专业任务,满足专业影视级场 景需求。 另外,万相 2.6 也是全球功能最全的视频生成模型功能 ,比大名鼎鼎的 Sora2 还 多了一项"多音频驱动生视频"功能 ...
AI编码工具变 “格式化神器”?Claude CLI半年频当“系统杀手”,多位开发者痛斥:心血都没了!
AI前线· 2025-12-15 06:53
整理 | 华卫 Claude 又闯祸了。近日,一则 Reddit 上对 Claude CLI 的控诉帖引起了大量反响。 情况是,一位开发者用 Claude CLI 清理旧仓库里的软件包时,不仅被删除了整个用户目录,居然把整个 Mac 系统都清空了! 这到底是怎么回事? Claude 自查"翻车": 执行了灾难性命令 据该开发者叙述,发生这事后,他第一时间询问了 Claude,而 Claude 给出的回复十分气人: 我找到了问题所在,情况非常严重。查看你的日志后发现,执行了这条灾难性命令: bashrm -rf tests/ patches/ plan/ ~/ 看到末尾的 ~/ 了吗?这代表你的整个用户主目录。 Claude Code 实例意外在删除命令中包含了 ~/,这会彻底清除以下所有内容: 基本上 /Users/ 目录下的所有内容都会被删除。 这也解释了其 Mac 系统为什么会出现以下情况: 你的完整桌面目录(~/Desktop) 文档、下载文件及所有个人数据 钥匙串(~/Library/Keychains) Claude 凭证(~/.claude) 应用程序支持数据 桌面内容消失 钥匙串被删除 Clau ...
打破确定性魔咒!北航团队提出VBF++:用“不确定性建模”刷新多模态视频推荐 SOTA
AI前线· 2025-12-15 06:53
作者 | 刘瑞 审校 | 蔡芳芳 论文题目 : VBF++: Variational Bayesian Fusion with Context-Aware Priors and Recommendation-Guided Adversarial Refinement for Multimodal Video Recommendation 这种"点估计"的策略,在面对真实世界短视频生态中的三大"不确定性"时 [5-6],显得尤为脆弱 : 范式革新:VBF++ 将融合从 作者单位 : 北京航空航天大学 & 北京邮电大学 参考代码 : https://github.com/muhhpu/VBF 痛点:确定性融合的 "不确定性"危机 多模态视频推荐系统在捕捉用户兴趣时,需要高效整合视频的视觉、听觉和文本特征。然而,现有的主流方法(如基于注意力机制或图神经网络的 确定 性融合 方法 [2-3])面临着一个根本性的挑战:它们倾向于为给定的输入计算一个单一的、最优的权重向量,将多模态融合视为寻找"全局唯一最优解"的 优化问题 。 "点估计"升级为"分布建模" 近日,北京航空航天大学和北京邮电大学联合提出了一种全新的概率化框 ...
他们卷他们的,「2026 极客日历」给你新的 Debug 节奏 | 极客时间
AI前线· 2025-12-15 06:53
我们一直思考:什么才是程序员真正需要的陪伴?是更高效的工具,还是更深度的知识? 也许这些都很重要,但回到日常,我们发现那些支撑你持续向前的,常常是 枯燥工作中一闪而过的默契幽默、是 bug 之间喘口气的共鸣、是键盘之外 属于"人"的温度 。 于是,我们决定做一件简单而真诚的事——为你设计一本 专属于程序员的日历 。 不只是日历,更是 365 个"被理解"的瞬间 。这里没有复杂的教程,也不修复代码,但我们希望它能在你抬头的一刻,给你一个会心的微笑、一次短暂 的停留,然后带着一点轻松,继续创造属于你的精彩。 在经历了最初有这个念头,到开始策划、邀请用户共创、用户投稿的细心汇编、内部团队的编排与优化、以及跟设计师反复调试的"编译"过程后,这本 属于每一位程序员的日历,终于定稿、开始出货。 印刷出来不好看 = h ■ 决定了:用中间的那 个尺寸吧 好的 模型微调(PEFT)是精密手术。 整点头发 LoRA 以极小参数代价,在巨人肩 膀上,精准植入特定领域的灵魂。 : 学习中 分号去掉,不好看 x N 最后一遍几个字建议换中文引号 太细节了哈哈,厉害厉害,各位 a leg a transmission in NO 文字 ...
JetBrains放弃Fleet:急刹变道打造全新Agentic IDE,与VS Code、Cursor争夺下一代AI编程王座
AI前线· 2025-12-14 05:32
Core Viewpoint - JetBrains has decided to discontinue the development of its IDE Fleet, which has been in public preview since its launch in 2021, and will focus on a new development environment called Air aimed at agentic development [2][6]. Group 1: JetBrains and Fleet - JetBrains has a comprehensive suite of IDE products primarily based on the IntelliJ core platform, which has been in use since 2001 [4]. - Fleet was intended to be a lightweight, collaborative IDE to compete with Microsoft's Visual Studio Code (VS Code), which has gained popularity for its features [4][5]. - Despite some initial interest, most developers remained loyal to the IntelliJ series due to its robust plugin ecosystem and Fleet's prolonged public testing status [5]. Group 2: Discontinuation of Fleet - JetBrains announced that Fleet will no longer be available for download starting December 22, 2025, as maintaining two IDE product lines was causing user confusion and internal resource dilution [6]. - The company acknowledged that it failed to replace IntelliJ IDEA with Fleet or narrow its focus to a clear, differentiated niche [6]. - Although Fleet is being discontinued, its components will be integrated into other JetBrains IDEs, and the new product Air is an evolution of the Fleet platform [6]. Group 3: Introduction of Air - Air is designed to focus on a new workflow that leverages AI capabilities, allowing developers to delegate significant tasks to agents, which contrasts with traditional IDE workflows [7][8]. - The agentic workflow involves structured task definitions and asynchronous execution, which necessitates a different tool experience than traditional IDEs [8]. - Air is currently in public testing and will support multiple operating systems and cloud execution, enhancing its functionality beyond what Fleet offered [8]. Group 4: Developer Reactions and Market Position - Some developers expressed disappointment over the discontinuation of Fleet, believing it had the potential to compete effectively with VS Code and other emerging tools [10]. - The shift from Fleet to Air reflects a recurring pattern in JetBrains' strategy to adapt to evolving software development paradigms, particularly in the AI programming tool space [11]. - There are concerns about the necessity of creating a new tool rather than enhancing existing IDEs with AI features, raising questions about developer migration to Air [11].
知情人士回应豆包手机被约谈;传MiniMax、智谱计划很快香港IPO;OpenAI被曝使用Agent Skills | AI周报
AI前线· 2025-12-14 05:32
整理 | 傅宇琪、褚杏娟 消息称 MiniMax 和智谱计划很快进行香港 IPO;知情人士回应豆包手机被曝被约谈:消息不实; OpenAI 被曝使用 Claude 的 Agent Skills、 GPT-5.2 被指虚假营销;迪士尼官宣 10 亿美元投资 OpenAI,允许 Sora 生成米老鼠等角色视频;英伟达否认"DeepSeek 使用禁售 Blackwell 芯片"相关传 闻;美批准向中国出售英伟达 H200,抽成 25%!中国只回了一句话;美图吴欣鸿:鼓励员工内部创 业,给 1000 万"风投";夸克 AI 眼镜"爆单":现货被最高炒到 5000 元,产能已排到 45 天后;阿里成 立千问 C 端事业群,包括千问,夸克、UC 等业务;宇树、智元被曝竞逐 2026 春晚资格,报价吓 人!智元机器人回应;马斯克或成全球首位万亿美元富豪;招聘市场回暖,AI 岗位量单月暴涨 11 倍…… 行业热点 消息称 MiniMax 和智谱计划很快进行香港 IPO 12 月 11 日,据市场消息,人工智能独角兽企业 MiniMax 和智谱计划很快进行香港 IPO。 据多家媒体援引市场消息,三家头部 AI 独角兽:Mini ...
张涛首次回应争议,Manus 为什么没有被替代?
AI前线· 2025-12-13 05:33
以下文章来源于真格基金 ,作者与你同在的 真格基金 . 专注早期投资,欢迎投递商业计划书至 dream@zhenfund.com 11 月 30 日,真格举办了一场关于 AI 创业的分享活动。真格管理合伙人戴雨森与 Kimi 总裁张予彤、与爱为舞创始人张怀亭、Manus 联合创始人张涛一 同走进清华大学,带来了一场关于创新与未来的深度对谈。 3 月 5 日,首个通用智能体 Manus 正式发布。视频中,Peak(季逸超)坐在共享办公室的公共区域沙发,向大家介绍他们眼中的新机会。没想到第二 天醒来,海内外社交媒体上聚集了远超预期的关注。4 天后,Twitter 创始人 Jack Dorsey、Stripe CEO Patrick Collison、Hugging Face 产品负责人都 转发了。 作为一线 AI 创业者,张涛也给在场的清华学生提出建议:现在已经是 2025 年的最后一个月了。如果你还没真正用过 Agent,一定要在今年最后的时间 里开始尝试,学会与它共处。就像五十年前学会开车、三十年前学会用电脑一样,未来你也能说一句:「我是在 Agent 元年就开始用 Agent 的人,而不 是第二年。」 以下 ...
谷歌最新 Gemini Agent 爆击GPT-5.2?人类最后考试得分见分晓!网友:Altman又该发“红色警报”了
AI前线· 2025-12-13 05:33
作者|冬梅 在全球人工智能领域竞争快速升温的当下,谷歌与 OpenAI 再次在同一天抛出重磅更新,令整个行业 的注意力高度集中。 昨天夜里,谷歌发布了全新"重新构想"的 Gemini Deep Research 版本,并首次开放了嵌入式研究智 能体 API。 而几乎同时,OpenAI 正式发布了备受期待的 GPT-5.2(代号 Garlic)。两家公司围绕智能体 (Agent)未来、基础大模型能力边界以及应用生态主导权的竞争,正进入一个前所未有的焦灼阶 段。 这一次,谷歌和 OpenAI 的攻防几乎精确地踩在同一时间窗口,让外界得以清晰观察这两家全球 AI 巨头之间的战略对抗节奏。 谷歌推出全新 Deep Research Agent 谷歌推出的全新 Gemini Deep Research 工具是一款智能 Agent,能够整合海量信息并处理提示信息 中大量的上下文数据。谷歌表示,客户使用 Deep Research Agent 执行的任务范围广泛,从尽职调 查到药物毒性安全研究均有涉及。 谷歌还表示,很快会将这款全新的 Deep Research Agent 集成到其各项服务中,包括谷歌搜索、谷 歌财经、G ...
基于 SGlang RBG + Mooncake 打造生产级云原生大模型推理平台
AI前线· 2025-12-12 00:40
作者 | 玖宇(SGLang 社区 & 阿里云),杨彦波(SGLang 社区 & 科大讯飞),孙伟祥(SGLang 社区 & 小红书),宋阳 (SGLang 社区 & 小红书),雨杨 (Mooncake & 阿里云) 背 景 大语言模型(LLM)推理服务正迅速成为企业级应用的核心基础设施。生产级落地的关键在于性能、稳定性与成本三者的平衡,而本文聚焦于如何构建稳 定的高性能推理系统。 当前,LLM 推理架构正从单体模式向分布式演进,主流路径包括 Prefill-Decode(PD)分离 、 Attention-FFN(AF)分离 以及 KVCache 外置 。这一 演进的根本动因是模型规模扩张导致的显存压力:在长上下文或高并发场景下,KVCache 显存占用常超 70%,单纯依赖 GPU HBM 与 CPU DRAM 已难 以为继。将 KVCache 解耦外置,不仅能突破存储容量瓶颈,更能实现跨请求缓存共享、弹性伸缩与故障隔离等关键能力。尤其在 RAG、AI Agent、长 文本生成等机器驱动消费 Token 的场景中,提示词模板化与可复用性成为常态,外置 KVCache 已成为保障低延迟、高吞吐与成本效益的必 ...