Workflow
模型评测
icon
Search documents
基模下半场:开源、人才、模型评估,今天的关键问题到底是什么?
Founder Park· 2025-07-31 14:57
关于基模的讨论又重新热闹起来了。 一旦某种模式被验证可行,它的实现本质上就成了一个工程问题,而中国最擅长处理工程问题。 如果把模型视为基础设施,中国的开源模型未来会成为发展中国家的模型标准。 不同机构间的人才差异并没有那么大,聪明人最终总能想出办法。好模型和坏模型的差异,往往 反映的是资源和人才利用效率的问题。 找到模型的正确方向,归根结底是实验速度,以及拥有合适的基础设施和足够好的基础模型,不 仅仅只是人才。 现在能做出好的评测,可能比以往任何时候都有更大的影响力。好的评测可以带来新的话语权。 在「机器学习的下一个任务是什么」这个问题上,还有巨大的蓝海,有人可以去定义它,而且定 义这个并不需要庞大的算力集群。 RL 无法泛化到数学和代码之外的说法被严重夸大了,从数学和代码开始的原因是,因为它们很 容易被验证。 Kimi、Qwen、智谱的开源模型接力发布,Hugging Face 上中国模型基本垄断了热门榜。就在今天,阶 跃星辰的 Step-3 也开源了。 另外一方面,小扎疯狂挖人重新做 Llama,最近的公开信又暗示说 Llama 5 可能不会开源。 开源模型的标准眼瞅着要变成中国模型,大模型的竞争实质上已 ...