腾讯研究院AI速递 20250820
腾讯研究院·2025-08-19 16:01
- 模型对标Qwen3-8B,在数学、代码、推理与长上下文任务中表现持平或更优,完全开源且支持128K上下文长 度; 3. 该模型通过20万亿Token训练基础模型,再通过Minitron策略将12B参数模型压缩至9B,单张A10G GPU即可支 持128k上下文。 https://mp.weixin.qq.com/s/QoDSpTOJuuyr4GknTeSztg 生成式AI 一、 英伟达发布Nemotron Nano 2模型,9B、混合架构 1. 英伟达发布9B参数量的Nemotron Nano 2模型,采用Mamba-Transformer混合架构,推理吞吐量最高可达传统 模型的6倍; 1. OpenAI总裁Greg Brockman分享了GPT-1到GPT-5对相同提示的回答对比,展示了模型在知识储备、逻辑结构 和语言连贯性上的显著进步; 2. 结果显示初代模型GPT-1和GPT-2回答常带有胡言乱语的特性,而最新GPT-5则能提供更加有逻辑、丰富且具有 情感价值的回复; 3. 有趣的是,在评论区中,不少网友反而对早期模型表示喜爱,认为它们的回答更"狂野"和"不媚俗",甚至有人称 GPT-1更像"真正 ...