监督微调（SFT） - filings, earnings calls, financial reports, news

监督微调（SFT）

Search documents

豆蔻妇科大模型再突破：钉钉行业训练平台+精标数据SFT ，准确率从 77.1%上升至 90.2%

Tai Mei Ti A P P· 2025-07-10 07:49

文 | 王强宇在医疗 AI 领域，通用大语言模型虽凭借海量互联网数据训练具备广泛知识覆盖面，但在需高度专业判断的临床场景中表现欠佳。当医生询问疾病鉴别诊断时，通用模型可能给出不准确甚至错误建议，这在严肃的医疗决策中不可接受。大家都知道监督微调（SFT）技术是解决上述难题性价比较比较高的方案之一，但SFT也需要具体一定的条件：如高质的数据集，同时由于医疗数据的特殊性和复杂性，模型调优的过程可能非常耗时且难以预测。同时SFT是一个迭代优化的过程，需要不断地对模型进行训练、评测和优化。豆蔻妇科大模型的模型调优经历了两个关键优化阶段：以下是豆蔻妇科大模型从第一个版本的准确率77.1%，通过进一步的SFT后，准确率达到90.2%我们团队的一些方法和心得，供大家参考，欢迎留言讨论。一、训练数据集的科学筛选（数据集构建与质量控制）在对优质训练数据集的筛选过程中，我们实施了三个关键步骤：第一是系统化数据清理，通过建立严格的质量控制标准，重点关注推理与结果的一致性检查，筛选出 answer与ground truth不一致的样本，特别是那些思考过程和输出结果不一致的情况，这类数据被视为低质量数据。同时进 ...

大模型刷数学题竟有害？CMU评估20+模型指出训练陷阱

量子位· 2025-07-07 06:13

henry 发自凹非寺量子位 | 公众号 QbitAI 学好数理化，走遍天下都不怕！这一点这在大语言模型身上也不例外。大家普遍认同：具备更强数学能力的模型往往也更智能。但，常识就是用来打破的。最近，来自CMU的团队发现，一些数学好的模型并没有将它们的"天赋"带到其他更加通用的领域。研究发现，只有用强化学习（RL）训练的模型才能将数学推理技能广泛迁移到其他任务上。而用监督微调（SFT）训练的模型则表现出有限的迁移甚至没有迁移。网友直呼：又一个苦涩的教训（bitter lesson）。这数学题，不做也罢？很明显，人们训练大模型并不只是让它来做数学题的。研究者之所以热衷于提高模型的数学表现，是因为希望它能够把数学那里学到的严密逻辑应用到其他更广泛的领域。但在此之前，我们有必要知道，对于一个大模型，专门优化数学推理（math reasoning），它在其他任务（推理任务、非推理任务）上会变得更好，还是更差？换句话说：做数学推理训练，会不会帮助或者损害模型在其他领域的能力？为了解决这一疑问，研究评估了20多个模型在数学推理、其他推理任务（包含医学推理、医学推理、智能体规划）和非推 ...

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

TI）

Artificial Intelligence

大模型

强化学习（RL）

监督微调（SFT）

迁移能力指标（Transferability Index

TI）

Artificial Intelligence

大模型

同时监督和强化的单阶段大模型微调，告别“先背书再刷题”，推理泛化双提升｜中科院&美团等

量子位· 2025-07-02 02:02

SRFT团队投稿量子位 | 公众号 QbitAI 通过单阶段监督微调与强化微调结合，让大模型在训练时能同时利用专家演示和自我探索试错，有效提升大模型推理性能。中国科学院自动化研究所深度强化学习团队联合美团，提出一种单阶段监督-强化微调方法——SRFT (Supervised Reinforcement Fine-Tuning) 。该方法通过基于熵的动态加权机制，将两种训练范式结合。在大语言模型（LLM）的推理能力提升上，监督微调（SFT）和强化学习（RL，有时也称作强化微调，RFT）是两条核心技术路线。但它们各自都存在瓶颈： SFT擅长模仿专家解题思路，类似"背书"，能快速为模型打下基础，但缺点是容易陷入死记硬背，缺乏在新问题上灵活应用和寻找最优解的能力； RFT/RL通过不断试错来探索解题方法，类似"刷题"，能够发现更优解法，但其探索过程效率低下，容易面临模式崩溃风险。因此，目前研究者通常采用两阶段顺序方法SFT→RFT/RL：先用SFT学习高质量数据集，再用RFT/RL进一步优化对齐LLM策略（即先"背完书"再"去刷题"）。然而，这种串行方式不仅影响学习效率，还常常导致模型 ...

SRFT (Supervised Reinforcement Fine - Tuning)

SRFT (Supervised Reinforcement Fine - Tuning)

揭秘LLM“思考”之谜：推理即“梯度下降”，元学习框架解构训练过程，还给优化提供新思路

量子位· 2025-06-10 04:05

RaML团队投稿量子位 | 公众号 QbitAI 近年来，大语言模型（LLM）以其卓越的文本生成和逻辑推理能力，深刻改变了我们与技术的互动方式。然而，这些令人瞩目的表现背后， LLM的内部机制却像一个神秘的"黑箱"，让人难以捉摸其决策过程。上海AI Lab的研究团队的近期提出Reasoning as Meta-Learning（RaML)，尝试从梯度下降和元学习（Meta-Learning）的角度，揭示了LLM如何"思考"，并为优化其性能提供了新思路。 RaML的核心洞察：推理即"梯度下降" RaML框架的核心在于一个直观的类比：LLM在解决问题时生成的"推理轨迹"（即一步步推导的过程），就像模型参数在优化过程中的"伪梯度下降"更新。这意味着，当LLM进行多步推理时，其内部状态（即模型参数）会像典型的参数优化过程一样，逐步地"调整"和"适应"，每一步都朝着更优的解决方案逼近，直到得出最终的答案。研究团队通过理论推导发现，在Transformer模型中，每个推理轨迹的令牌都可以看作对参数的一次 "隐式更新" 。考虑典型的transformer块的计算过程，当输入中增加一个推理轨迹令牌 ...

SFT在帮倒忙？新研究：直接进行强化学习，模型多模态推理上限更高

机器之心· 2025-06-01 03:30

机器之心报道编辑：张倩「尽管经过 SFT 的模型可能看起来在进行推理，但它们的行为更接近于模式模仿 —— 一种缺乏泛化推理能力的伪推理形式。」随着 OpenAI 的 o1/o3 和 Deepseek-R1 等具备强大推理能力的大语言模型相继问世，学界普遍采用「监督微调 + 强化学习」的两阶段训练范式：先通过推理数据进行监督微调（SFT），再通过强化学习（RL）进一步提升性能。这种成功模式启发了研究人员将其优势从纯文本领域拓展到视觉 - 语言大模型（LVLM）领域。但近日的一项研究成果却给出了一个惊人的发现：「SFT 可能会阻碍学习 —— 经常导致出现伪推理路径，而 RL 则是在促进真正的多模态推理！」这个发现来自加州大学圣克鲁兹分校和德克萨斯大学达拉斯分校等机构的一个研究团队，他们深入探讨了「SFT+RL」这一经典范式在视觉语言模型开发中的适用性，其中重点关注了两个核心问题：1）SFT 与 RL 在多模态推理中分别产生何种独特作用？2）这种两阶段训练对 LVLM 的推理能力是否确有必要？论文标题： SFT or RL? An Early Investigation into Training ...

VLAA-Thinker-Qwen2.5VL-3B模型

VLAA-Thinker-Qwen2.5VL-3B模型