GPT2

Search documents
不调参、不费力,上海交大&上海AI Lab推出“记忆解码器”,任意LLM无缝自适应
3 6 Ke· 2025-08-26 09:17
当前,大语言模型(LLM)在医疗、金融、法律等专业领域,常因缺乏深度知识而表现较差,如何让 LLM 在不同特定领域中发挥最佳性能,仍是一大挑 战。 现有主流方案包括领域自适应预训练(DAPT)和检索增强生成(RAG)。然而,DAPT 需要进行耗时的全参数训练,且易产生灾难性遗忘,难以让多个 模型在同一领域中高效适配;而 RAG 也因昂贵的 kNN 搜索和更长的上下文,推理延迟大大增加。 而且,由于 RAG 的即插即用特性与 DAPT 的推理效率之间存在固有矛盾,开发既能跨模型适应,又能在部署时保持计算效率的解决方案,仍为空白。 为此,来自上海交通大学和上海AI Lab 的研究团队提出了一个"即插即用"的预训练记忆模块——"记忆解码器"(Memory Decoder),无需修改原模型参 数,即可适配不同尺寸模型,实现 LLM 的高效领域适应。 论文链接:https://arxiv.org/abs/2508.09874v1 Memory Decoder 的核心创新在于其"即插即用"的特性。经过训练后,单个 Memory Decoder 可无缝集成到任何使用相同 tokenizer 的 LLM 中,而无需进 行模型 ...
KIMI K2:最前瞻的研究!OnlineRL新范式,大模型的又一DeekSeek时刻!
2025-07-19 14:02
KIMI K2:最前瞻的研究!OnlineRL 新范式,大模型的 又一 DeekSeek 时刻!20250718 摘要 Kimi K2 作为国内首个公开数据显示拥有万亿参数的 MOE 模型,其架 构与 Distill V3 相似,但专家拆解更细致,采用 CLIP 优化器缓解梯度输 出问题,并实现部分在线强化学习功能,通过融合多场景数据,在奖励 模型上优选最佳结果,产生高质量合成数据,推动开放式问题场景发展。 GPT2 引起轰动在于使用工具后能力提升显著(绝对提升 15%,相对提 升 80%),以及 Post-training 算力消耗超过 Pre-training,表明对算 力规模和 Skill-up 要求提高,促使海外构建更多大节点算力集群。 Kimi KR 模型因范式创新和强大的模型能力在海外引发讨论,即使是 Pre-training 版本,完成强化学习后有望对标甚至超越 GPT-3,并可能 超越国内外下一代模型,提升基础软硬件配套,推动短链和长链应用发 展。 从投资角度看,2025 年下半年进入预期兑现阶段,应关注最快落地的 项目和长期增量价值最大的项目。海外数据显示,云计算、基础软硬件 配套设施及实施 ...