谷歌开源Gemma 3 270M,性能超越Qwen 2.5同级模型
机器之心报道 机器之心编辑部 下载下来只有 241 MB。 本周四,谷歌正式发布了 Gemma 3 的最新一款模型。 Gemma 3 270M 是一款紧凑型、拥有 2.7 亿个参数的小体量语言模型,专为特定任务的微调而设计,具备强大的指令跟踪和文本结构化能力。 它继承了 Gemma 3 系列的先进架构和强大的预训练功能,同时为小尺寸模型带来了强大的指令执行能力。谷歌展示的 IFEval 基准测试成绩所示,在同级模型上, Gemma 3 270M 树立了新的性能水平,使复杂的 AI 功能更容易应用于设备端和研究应用。 IFEval 旨在测试模型执行可验证指令的能力。 Gemma 3 270M 的核心功能主要包括如下几个方面: 对于 1.7 亿个嵌入参数,如何在训练过程中保证不出现嵌入崩溃,谷歌并没有对技术细节进行太多解释。不过在谷歌发布后,AI 社区很快开始了研究。 紧凑而强大的架构:新模型共有 2.7 亿参数:由于词汇量庞大,嵌入参数有 1.7 亿个,Transformer 模块则有 1 亿个。得益于 256k 个 token 的庞大词汇量,该 模型可以处理特定和罕见的 token,使其成为强大的基础模型,可 ...