Llama 3 发布,亮点在于 “小” 模型
晚点LatePost·2024-04-19 16:05
重新寻找 Scaling Laws。 文丨 贺乾明 编辑丨黄俊杰 像一个人的学习成长一样,每个全新的大模型,都需要从大量的文本中学习 "知识",才有能力去解 决一个个问题。 Google 训练 70 亿参数的 Gemma 开源模型,让它 "看过" 6 万亿 Token(6 万亿个词)的文本。微软 投资的 Mistral 训练 73 亿参数模型,"看过" 8 万亿个 Token 的文本。 用如此大规模的数据训练参数不到 100 亿的模型,已经是行业中比较重的方法。按照 DeepMind 研 究人员提出的策略,如果考虑性价比,这么大的模型,看 2000 亿 Token 的文本就够了。不少中国 一线创业公司的同等规模大模型只用了 1 万亿~2 万亿个 Token 的文本。 Meta 的 CEO 马克·扎克伯格(Mark Zuckerberg)不满足于此,他直接把下一代开源大模型送进了 "县中",用更多习题拔高能力。Meta 昨夜推出的 Llama 3 系列大模型,80 亿参数模型用了 15 万亿 Token 的训练数据,比 Google 的多学了一倍还不止,是很多小公司产品的十倍。 根据 Meta 公布的数据,在 ...