8块钱跑通一次强化学习全流程,潞晨云重塑微调赛道:1名算法工程师=1支Infra团队
量子位·2026-01-07 05:17
允中 发自 凹非寺 量子位 | 公众号 QbitAI 大模型下半场的战火,已经从"暴力预训练"烧向了"后训练"战场。 潞晨云微调SDK 正式开放上线——这是 国内首个全面开放、且兼容Tinker范式的Serverless微调平台 。 其基于Thinking Machine Lab开源的Tinker SDK构建,核心目标只有一个: 为复杂且昂贵的强化学习,提供一套更具成本优势的工业级解法。 拥抱后训练与RL:算法层与底层算力架构的解耦 随着OpenAI o1在推理能力上的突破,业界逐渐形成共识—— 无论是OpenAI o1的推理突破,还是DeepSeek-R1靠强化学习 (RL) 实现的性能飞跃,都释放了一个明确信号: 决定模型天花板的,不再只是算力堆砌,而是更精准的微调和RL迭代。 但现实很骨感——复杂的分布式基建、高昂的显卡租金、繁琐的架构调优,像一道道高墙,把无数算法工程师挡在了"炼丹房"外。 现在,这堵墙正在被推倒。 即大模型的能力突破已不再单纯依赖预训练 (Pre-training) 阶段的参数堆砌, 后训练(Post-Training) 特别是强化学习,正成为决定模 型实用价值的核心战场 。 以De ...