刚刚,字节开源Seed-OSS-36B模型,512k上下文
机器之心·2025-08-21 01:03
| 机器之心报道 | 机器之心编辑部 | | --- | --- | | 开源赛道也是热闹了起来。 | | | 就在深夜,字节跳动 Seed 团队正式发布并开源了 Seed-OSS 系列模型,包含三个版本: | | | Seed-OSS-36B-Base(含合成数据) | | | Seed-OSS-36B-Base(不含合成数据) | | | Seed-OSS-36B-Instruct(指令微调版) | | Seed-OSS 使用了 12 万亿(12T)tokens 进行训练,并在多个主流开源基准测试中取得了出色的表现。 这三个模型均以 Apache-2.0 许可证发布,允许研究人员和企业开发者自由使用、修改和再分发。 主要特性: 模型架构 Seed-OSS-36B 的架构结合了多种常见的设计选择,包括因果语言建模、分组查询注意力(Grouped Query Attention)、SwiGLU 激活函数、RMSNorm 和 RoPE 位置 编码。 每个模型包含 360 亿参数,分布在 64 层网络中,并支持 15.5 万词表。 其最具代表性的特性之一是原生长上下文能力,最大上下文长度可达 512k token ...