模型幻觉

Search documents
AI Agent:模型迭代方向?
2025-05-06 02:28
AI Agent:模型迭代方向?20250503 摘要 • AI 商业化进展缓慢,To B 端尤为明显,微软 Copilot 未达预期,OpenAI 产品仍以 chatbot 为主,未进入 agent 阶段。Agent 准确率受限于大模 型能力,工程化手段成为完善产品的重要途径。 • Deepseek Prover V2 版本为解决 agent 产品化问题提供新思路,其核 心作者已公开相关信息,并在 GitHub 上提供论文,为提升 agent 执行复 杂任务的准确率提供了新的方向。 • OpenAI 和 Anthropic 在 autonomous AI system 研究方面均有进展, Anthropic 在技术积累上更超前,其 ComputeUse 系统运行时间早于 OpenAI 相应产品至少一个季度,在 agent 产品化和模型能力方面 Anthropic 或更具优势。 • 大型科技公司通过技术研发和工程化手段推动大模型发展, Deepseek、OpenAI 和 Anthropic 专注于技术研发,其他公司则采用工 程化手段完善产品,共同促进下一代 AI 产品的发展。 • Chatbot 和 Agen ...
李彦宏说 DeepSeek 幻觉高,是真的吗?
3 6 Ke· 2025-05-02 04:29
李彦宏点名批评DeepSeek幻觉高。这回,他真的没错。但大模型的幻觉问题,又远非错与对那么简单。 DeepSeek-R1作为今年年初的新晋国产开源大模型,以强大的推理能力和更懂国人的文笔,在苹果美区App免费下载排行榜上力压ChatGPT一头,甚至一 度成为"AI"的代言词。 然而,自从R1席卷全网后,关于它经常"胡说八道"的批评就不绝于耳,比如它实在太能编了,让人真真假假分不清。 除了用户端之外,李彦宏及其代表的大厂们也"苦"DeepSeek已久:一方面,大厂不得不依赖DeepSeek的泼天流量导入自身门户入口;另一方面,尽管投入 大量人力物力研发深度推理模型,其成果却难以突破用户心智。 在2025百度AI开发者大会的开幕上,李彦宏直接点出全民AI大模型 DeepSeek-R1 的痛点:"只支持单一模态、幻觉率较高、又慢又贵"。一番犀利评论, 再度引发了各界对DeepSeek-R1以及大模型"幻觉"的评议。 但出现强烈幻觉的并不止DeepSeek一家,OpenAI在其内部测试中发现:o3/o4-mini虽然全面替换了o1系列,但是幻觉现象越来越强了;国内第一个混合推 理模型——阿里通义的Qwen3也在X上 ...