Workflow
智能体工作流
icon
Search documents
DeepSeek-R1超级外挂!“人类最后的考试”首次突破30分,上海交大等开源方案碾压OpenAI、谷歌
量子位· 2025-07-09 04:57
西风 发自 凹非寺 量子位 | 公众号 QbitAI "人类最后的考试"首次 突破30分 ,还是咱国内团队干的! 该测试集是出了名的超难,刚推出时无模型得分能超过10分。 直到最近, 最高分也不过26.9 ,由Kimi-Research和Gemini Deep Research并列取得。 现在,上海交大联合深势科技团队突然发布了一项新研究,在"人类最后的考试" (HLE,Humanity's Last Exam) 上一举拿下 32.1分 , 创下新纪录。 在这项研究中,团队推出 工具增强推理智能体X-Master 、 多智能体工作流系统X-Master s。 划重点:还直接把这套方案给 开源 了。 网友们纷纷感叹现在AI竞赛太激烈,一天一个样。 另外值得一提的是,这项研究 使用了DeepSeek-R1-0528作为驱动智能体的推理模型 ,由此也有网友表示: R1在函数调用上表现仍欠佳,而且在这项研究里甚至没有针对这一点进行微调。但即便如此,只要给它搭配合适的框架,它在HLE这 个难度很高的测试中就能拿到32%的成绩。 虽然大家可能会习惯性地称R1为"最佳基础模型",但我觉得这其实是给V4打下了基础。我敢肯定, ...
The Builder's Playbook:300位高管眼里的AI商业化 | Jinqiu Select
锦秋集· 2025-06-30 15:31
随着人工智能技术从前沿探索迈向产业应用的深水区,市场的焦点已不再是"AI能做什么",而是"如何规模化地构建、交付并商业化成功的AI产品"。 ICONIQ Growth刚刚发布的《2025 AI状态报告》调研了300位软件公司高管,揭示了一个重要转变:企业不再纠结"要不要用AI",而是在思考"怎么把AI做好"。 市场正在快速分化。几个关键数据值得创业者关注: 锦秋基金(公众号:锦秋集;ID:jqcapital)认为,这份报告摒弃了宏大的趋势预测,转而深入一线,为产品架构师、工程师和技术领袖们提供了一份详尽的"how- to"指南,帮助创业者思考如何将生成式AI从一个充满希望的概念,转变为一个可靠且能驱动营收的核心资产。 01 构建AI产品——从模型选择到基础设施的实战策略 在AI产品化的浪潮中,企业正从传统的SaaS模式迅速向AI驱动的未来演进。调研显示,软件行业已形成两大主流路径:AI-Enabled(AI赋能)和 AI-Native(AI原 生)。其中,31%的企业选择在现有产品中嵌入AI功能,37%的企业则开发独立的AI新产品,而32%的企业则是完全围绕AI构建其核心业务,即AI原生公司。 1. 产品开发 ...