Workflow
腾讯混元TurboS
icon
Search documents
腾讯混元TurboS技术报告首次全公开:560B参数混合Mamba架构,自适应长短链融合
AI前线· 2025-05-22 19:57
随着大型语言模型(LLM)的飞速发展,模型能力与效率的平衡成为了前沿研究的关键议题。 腾讯混 元团队最新推出的混元TurboS模型,是一款新颖的 超大型 Hybrid Transformer-Mamba架构MoE模型 。该模型通过Mamba架构在长序列处理上的卓越效率与Transformer架构在上下文理解上的固有优势的 有机协同,实现了性能与效率的精妙平衡。 混元TurboS引入了创新的自适应长短思维链机制,能够根据问题复杂度动态切换快速响应模式与深度 思考模式,从而优化计算资源分配。更重要的是,其模型激活参数达到了56B(总参数560B),是业 界首个大规模部署的Transformer-Mamba专家混合(MoE)模型。 架构创新以及参数量的保证,让模型效果进步明显,国际最权威的大模型评测榜单LMSYS Chatbot Arena最新排名显示: 混元Turbo S 取得了整体1356的高分,在所有239个参赛模型中位列全球前7名。 | Rank* | Rank | Model | Arena 4 | વેરૂર A | Votes | A Organizatio License | 4 | | --- | ...
腾讯研究院AI速递 20250522
腾讯研究院· 2025-05-21 15:01
生成式AI 一、 真碾压Sora!谷歌Veo 3直接「开口说话」 物理 遵循 性 更 好 1. Veo 3实现音画同步生成功能,能根据提示词同时生成视频画面、对白、唇动和音效,实 现完整的视听体验; 2. 基于V2A(Video-to-Audio)技术,模型能将视频像素转化为语义信号,配合文本提示生 成匹配音频; 3. 模型支持长提示词理解和多步骤事件流生成,但目前仅限8秒视频,面向美国Ultra订阅用 户开放,定价249.99美元/月。 https://mp.weixin.qq.com/s/rJFwZ1lLiWzFLE7jd4jGyA 二、 12秒1万token!谷歌文本「扩散模型」Gemini Diffusion 1. Gemini Diffusion采用扩散技术生成文本,速度达2000token/秒,12秒可生成1万 tokens; 2. 区别于传统自回归模型从左到右生成,通过逐步优化噪声学习生成输出,可快速迭代和错 误纠正; 3. 性能可与更大的模型Gemini 2.0 Flash-Lite相媲美,支持非因果推理,能一次生成整个标 记块。 https://mp.weixin.qq.com/s/paes ...