Workflow
Agent Evaluation
icon
Search documents
从组件到系统,Agent 的 Evaluation 怎么做?
机器之心· 2025-10-12 01:27
--- 本周为您解读 ② 个值得细品的 AI & Robotics 业内要事 --- 1.从组件到系统,Agent 的 Evaluation 怎么做? 为什么 Agent 需要新的评估基准?Agent 与 LLM 的定位有何本质差别?Agent 评估范式在如何演进?GAIA 系列如何跨越 Agent Evaluation 的边界?MCP-universe、MCPMark 和 MCP- AgentBench 的反映了什么样的设计哲学?... 2. CoT 之后,CoF 如何让帧间逻辑从「隐式对齐」变成「显式思考」? CoT 只是「语言的表层叙事」,而非真正的推理?CoF 如何把「语言的思维链」转译为「视频的帧链」?CoF 为何被认为可能成为视频生成模型的「新范式」,它相较传统帧间一致性优化方法 的优势如何?从 CoF-Data 到 VChain,研究者如何把「推理链」嵌进每一帧画面?在 CoF 出现之前,视频模型靠什么维系「帧间一致性」?... 本期完整版通讯含 2 项专题解读 + 34 项本周 AI & Robotics 赛道要事速递,其中技术方面 13 项,国内方面 7 项,国外方面 14 项。 机器之心P ...
Break It 'Til You Make It: Building the Self-Improving Stack for AI Agents - Aparna Dhinakaran
AI Engineer· 2025-06-10 17:30
Hey everyone, my name is Aperna. I'm one of the founders of Arise and today we're going to talk about agent evaluation. At Arise, we build development tools to help teams build agents and take them all the way to production.We focus on everything from evaluation to observability monitoring and in tracing your application so you can see every single step that your application took. Uh let me tell you a little bit about why we got into this and then I'll jump into uh some concrete tips about how we think abou ...