对谈 Pokee.ai 朱哲清:强化学习做核心,Agent 的少数派造法
晚点LatePost·2025-04-29 08:43
可能是更高效、更便宜的 Agent 实现路径。 文 丨 孙海宁 编辑 丨 程曼祺 主流 AI Agent 都把大语言模型(LLM,或者它的多模态版本)当作 "大脑",靠一个或几个 LLM 编 排工作、调用工具。但也有另一条路:Agent 规划、作业靠不依赖自然语言的强化学习模型,LLM 只 充当 Agent 和人类的 "交互层"。 不一样的想法,来自去年 10 月成立,至今只有 4 个正式员工的 Pokee.ai。 Pokee.ai 创始人朱哲清有十余年强化学习研究、落地经验。2017 年起,从杜克大学计算机科学专业毕 业的朱哲清,一边在斯坦福大学攻读强化学习方向博士学位,师从 Benjamin Van Roy;一边在 Meta 工作,曾任 Meta"应用强化学习" 部门负责人,他用强化学习算法改善内容推荐系统,把上任前只剩 3 人,一度要关停的部门扩张至 10 余人,为 Meta 增收 5 亿美元。 靠 LLM 规划、决策,是个自然而主流的想法。OpenAI Operator 和网页交互、操作电脑的能力基于 GPT-4o 模型,Manus 完成任务则是靠 Claude 3.5 Sonnet 模型做长程规划。 ...