OpenAI Deep Research
Search documents
超越GPT-5、Gemini Deep Research!人大高瓴AI金融分析师,查数据、画图表、写研报样样精通
量子位· 2025-12-26 06:35
能自动查数据、写分析、画专业金融图表的AI金融分析师来了! 最近,中国人民大学高瓴人工智能学院提出了一个面向真实金融投研场景的多模态研报生成系统—— 玉兰·融观 (Yulan-FinSight) 。 面对用户的研究需求,FinSight能够自动拆解任务,从互联网和金融数据库中搜集包括股价、财报、新闻在内的 多源异构数据 ,并生成包 含"发展历程"、"核心业务架构"、"竞争格局"等章节的 万字图文报告 。 FinSight团队 投稿 量子位 | 公众号 QbitAI △ 可在FinSight预设基础上自行配置 该系统也在 AFAC 2025 金融智能创新大赛挑战组 的1289支队伍中夺冠,并在多项评测中超越了GPT-5 w/Search、OpenAI Deep Research与Gemini-2.5-Pro Deep Research,展现出接近人类专家的金融分析与写作能力。 下面来看详细内容。 为什么通用AI做不好金融研报? 在研究者看来,问题的关键并不在于模型"不会写字",而在于金融行业的研究报告本身是一项 高度结构化、强逻辑、强可视化 的专家级工 作,涉及多个流程。 相比通用问答、检索或文本生成任务,金融 ...
Kimi新功能Deep Researcher海外引发热议 还被马斯克直播点名
Sou Hu Cai Jing· 2025-07-10 10:15
Core Insights - xAI, led by Elon Musk, has launched its latest flagship model, Grok 4, during a live event [1] Group 1: Competitive Landscape - The live event compared the performance of various AI models, including OpenAI, Google's Gemini, and Kimi's Deep Researcher, highlighting that Deep Researcher surpassed Gemini 2.5 Pro and was on par with OpenAI's Deep Research in the Humanities Last Exam (HLE) [3] - Kimi's Deep Researcher achieved a score of 26.9% on HLE, outperforming all competitors, including OpenAI and Google's models, indicating a significant advancement in AI capabilities [4] - AI entrepreneurs and researchers have expressed admiration for Kimi's Researcher product, suggesting it is a top competitor alongside DeepSeek and ByteDance in the Chinese AI market [4][6] Group 2: Performance Metrics - Kimi DeepResearcher performs an average of 23 reasoning tasks for each research assignment, effectively filtering out low-quality information and generating rigorous analytical conclusions [6] - The performance of AI models has shown a remarkable increase, with scores rising from less than 5% to over 25% within a year, demonstrating rapid advancements in AI research capabilities [4]
开启 AI 自主进化时代,普林斯顿Alita颠覆传统通用智能体,GAIA榜单引来终章
机器之心· 2025-06-04 09:22
智能体技术日益发展,但现有的许多通用智能体仍然高度依赖于人工预定义好的工具库和工作流,这极大限制了其创造力、可扩展性与泛化能力。 近期,普林斯顿大学 AI Lab 推出了 Alita ——一个秉持「 极简即是极致复杂 」哲学的通用智能体,通过「 最小化预定义 」与「 最大化自我进化 」的设 计范式,让智能体可以自主思考、搜索和创造其所需要的 MCP 工具。 Alita 目前已在 GAIA validation 基准测试中取得 75.15% pass@1 和 87.27% pass@3 的成绩,一举超越 OpenAI Deep Research 和 Manus 等知名智 能体,成为通用智能体新标杆。Alita 在 GAIA test 上也达到了 72.43% pass@1 的成绩。 极简架构设计,最大自我进化 「让智能体自主创造 MCP 工具而不靠人工预设」,是 Alita 的核心设计理念。 现有的主流智能体系统通常依赖大量人工预定义的工具和复杂的工作流,这种方法有三个关键缺陷: 覆盖范围有限 : 通用智能体面临的现实任务种类繁多,预先定义好所有可能需要的工具既不可行亦不现实。而且预定义工具很容易过拟合 GAI ...
Deep Research类产品深度测评:下一个大模型产品跃迁点到来了吗?
Founder Park· 2025-04-23 12:37
以下文章来源于海外独角兽 ,作者拾象 Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过 审核后工作人员会拉你入群~ 海外独角兽 . 研究科技大航海时代的伟大公司。 Deep Research 产品可被理解为 一个以大模型能力为基础、集合了检索与报告生成的端到端系统,对信息进行迭代搜索和分析,并生成详细报告作为输 出。 参考 Han Lee 的 2x2 分析框架,目前 Deep Research 类产品在 输出深度、训练程度 两大维度呈现分异。 输出深度 即产品在先前研究成果的基础上进行了 多少次迭代循环以收集更多信息,可进一步被理解为 Agentic 能力的必要基础。 低训练程度 指代经过人工干预和调整的系统,比如使用人工调整的 prompt,高训练程度则是指利用机器学习对系统进行训练。 和传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的一次跃迁,可能也将成为具有阶段代表性的经典产品形态。 Deep Research 产品通过系列推理模型嵌入,已生长出了 Agent 产品 ...
Deep Research 类产品深度测评:下一个大模型产品跃迁点到来了吗?
海外独角兽· 2025-04-21 13:13
作者:Krystal 编辑:penny Deep Research 产品可被理解为 一个以大模型能力为基础、集合了检索与报告生成的端到端系统,对 信息进行迭代搜索和分析,并生成详细报告作为输出。 参考 Han Lee 的 2x2 分析框架,目前 Deep Research 类产品在 输出深度、训练程度 两大维度呈现分 异。 输出深度 即产品在先前研究成果的基础上进行了多少次迭代循环以收集更多信息,可进一步被 理解为 Agentic 能力的必要基础。 低训练程度 指代经过人工干预和调整的系统,比如使用人工调整 的 prompt,高训练程度则是指利用机器学习对系统进行训练。 从 2024 年末问世的 Google Deep Research,到 2024 年 2 月以来密集发布的 OpenAI Deep Research、 Perplexity、xAI Deep Search、Manus,Deep Research 成为各家 Agent 产品角逐的白热化赛道。 和传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的一次跃迁,可能也将成为具 有阶段代表性的经典产品形态。 ...
从 R1 到 Sonnet 3.7,Reasoning Model 首轮竞赛中有哪些关键信号?
海外独角兽· 2025-03-03 13:10
Core Insights - The competition among leading AI labs in reasoning models has intensified, with no clear SOTA leader emerging yet [1][3][10] - The release of Claude 3.7 Sonnet's hybrid reasoning model is expected to set a new standard for future AI models [13][16][17] Group 1: Reasoning Models Overview - OpenAI's o3-mini excels in mathematical reasoning but lacks in creative content generation compared to Grok and DeepSeek models [3][4] - Grok 3 Think has rapidly caught up to o3-mini, demonstrating strong reasoning capabilities and faster inference speed [4][5] - Claude 3.7 Sonnet leads in solving real-world coding problems, significantly outperforming others in engineering code tasks [5][19] - Gemini 2.0 Flash is underappreciated, showing strong multimodal understanding but lacking standout features [6][7] - DeepSeek R1 has made innovations despite limited resources, but currently lags behind top labs [7][8] Group 2: Base Model Competition - Grok 3 is perceived to potentially surpass GPT-4.5 in base model capabilities, with user feedback indicating a preference for Grok [10][11] - The importance of high-quality base models for reinforcement learning in reasoning models is emphasized, countering doubts about diminishing returns [12] Group 3: Hybrid Reasoning Model - Claude 3.7 Sonnet's hybrid reasoning model combines LLM and reasoning capabilities, likely influencing future AI model releases [13][16] - Users can toggle between fast and slow thinking modes, enhancing the model's adaptability [14][15] Group 4: AI Coding Developments - Claude 3.7 Sonnet has significantly improved coding capabilities, allowing for longer and more reliable code outputs [20][21] - Claude Code is positioned as a foundational tool for AI coding products, focusing on backend capabilities rather than direct user competition [22][23] Group 5: Action Scaling and Learning - The action scaling capability in Claude 3.7 allows for iterative problem-solving, crucial for effective AI agent deployment [25][26] - Continuous learning and dynamic fine-tuning are identified as key challenges for developing personalized AI agents [28] Group 6: Product Form and User Experience - OpenAI's Deep Research is recognized as the first PMF product in the RL scaling paradigm, offering superior user experience and task completion accuracy [29][30] - The ability to control research depth and breadth through configurable parameters is highlighted as a significant advancement [31][32]