Workflow
后训练大一统
icon
Search documents
后训练的「分」与「合」,SFT&RL 大一统才是正解?
机器之心· 2025-09-14 01:30
机器之心PRO · 会员通讯 Week 37 --- 本周为您解读 ③ 个值得细品的 AI & Robotics 业内要事 --- 1. 后训练的「分」与「合」,SFT&RL 大一统才是正解? 为什么后训练在 SFT 之外需要 RL?「先 SFT,后 RL」范式有哪些缺陷?SFT 与 RL 在理论上可以如何统一?「遗忘定律」如何解释灾难性遗忘的规律?SFT 与 RL 有哪些共性?混合 SFT 与 RL 如何解决单一范式的局限?... 2. AI 硬件,将带来下一个「苹果」还是昙花一现? Meta、OpenAI、苹果和谷歌在 AI 硬件上的布局中,谁的策略最可能形成生态优势?无屏幕、靠摄像头和麦克风的便携 AI 设备,会成为人们随身必备的新入口吗? AI 是「外挂」,还是会成 为每台设备的「隐形能力」?用户真的能感受到差别吗?无感交互真的能让我们「忘记手机」,还是只是技术噱头?AI 硬件还能玩出哪些「奇形怪状」?这些新奇形态是否可以真正走进我们 的生活?... 3. AI 是搜索的「替代品」还是「扩张引擎」? 生成式 AI 会成为搜索的「替代品」,还是推动查询量和用户意图扩张的「增长引擎」?多模态交互与对话式 ...