对谈 Pokee.ai 朱哲清：强化学习做核心，Agent 的少数派造法

可能是更高效、更便宜的 Agent 实现路径。文丨孙海宁编辑丨程曼祺主流 AI Agent 都把大语言模型（LLM，或者它的多模态版本）当作 "大脑"，靠一个或几个 LLM 编排工作、调用工具。但也有另一条路：Agent 规划、作业靠不依赖自然语言的强化学习模型，LLM 只充当 Agent 和人类的 "交互层"。不一样的想法，来自去年 10 月成立，至今只有 4 个正式员工的 Pokee.ai。 Pokee.ai 创始人朱哲清有十余年强化学习研究、落地经验。2017 年起，从杜克大学计算机科学专业毕业的朱哲清，一边在斯坦福大学攻读强化学习方向博士学位，师从 Benjamin Van Roy；一边在 Meta 工作，曾任 Meta"应用强化学习" 部门负责人，他用强化学习算法改善内容推荐系统，把上任前只剩 3 人，一度要关停的部门扩张至 10 余人，为 Meta 增收 5 亿美元。靠 LLM 规划、决策，是个自然而主流的想法。OpenAI Operator 和网页交互、操作电脑的能力基于 GPT-4o 模型，Manus 完成任务则是靠 Claude 3.5 Sonnet 模型做长程规划。 ...