但我还是想说:建议个人和小团队不要碰大模型训练!
自动驾驶之心·2025-09-20 16:03
这个暴论需要叠加很多buff,但我想说的确实就是这个标题。也算是和大家对齐一下认知。 这个暴论自然引申出一个问题: 不训练大模型怎么办? 为什么不要微调?因为没有模型的原始数据配比,更有可能原始的训练数据都没有,微调之后极有可能损失掉大 部分的性能。 那如果开源模型在特定领域的效果非常差,怎么办? 如果是很垂类的领域模型,可以先试试RAG,不行就试试In-context Learning,在上下文中,教LLM一些领域知 识。能尝试的低成本方案都尝试后,再考虑垂类领域模型的微调训练! 一些实际使用过程中的经验,将最需要脑子的任务交给o1系列模型,比较需要脑子的任务,交给4o这一梯队的 模型。 除了付费的模型,还可以考虑国产的大模型,点名表扬DeepSeek、豆包、Qwen等等开源大模型。 这其实就是Agentic AI的思路。 如果你的业务在上面的方案中都跑不通,那么自己训练模型大概率也是白瞎。大模型时代,基础模型能力的每一 次提升,都算是一次地球Online的版本更新。 距离大厂基座模型团队之外的AI人,需要先了解现有LLM的性能边界,敏锐的分辨出现有模型能力和过去方案 的差异,能否给当前的业务带来新的变化, ...