Twinkle✨框架
Search documents
训练即服务!让模型训练回归算法语义,150行代码跑通RL
量子位· 2026-03-11 01:18
Twinkle团队 投稿 量子位 | 公众号 QbitAI 大模型后训练的"易用性"与"灵活性",真没法兼得? ModelScope 团队最新开源的 Twinkle✨ 框架,给出了一条新路径。 它采用Client-Server架构,目前已支持包括Dataset、Model、Sampler的20余种算法组件。开发者可以用约150行代码,像写本地PyTorch 一样编排复杂的RL训练循环,同时底层调度、资源分配全交给框架。 要充分挖掘模型在各类场景下的应用潜力,针对性的训练微调至关重要。不可否认,以强化学习 (RL) 为代表的后训练范式,是模型生命周 期中复杂度最高的环节之一:其实现方式高度定制化,难以通用;组件耦合度高,导致源码层面的理解门槛极高;此外,多模型协作的架构也 极大地增加了代码编写的难度。 除了OpenAI提供的"数据进,模型出"的黑盒训练模式外,业界开源训练框架大致可分为两类: 通用型训练框架 :以LLaMA-Factory和ms-swift为代表。这类框架基于Transformers和TRL的Trainer开发,深度适配safetensors模型生 态,用户通常通过命令行配置来快速启动训练。 定 ...