美团LongCat-Flash-Omni正式发布并开源 开启全模态实时交互时代
据介绍,全模态模型训练的核心挑战之一是"不同模态的数据分布存在显著异质性"。LongCat-Flash- Omni采用渐进式早期多模融合训练策略,在平衡数据策略与早期融合训练范式下,逐步融入文本、音 频、视频等模态,确保全模态性能强劲且无任何单模态性能退化。综合评估结果表明,LongCat-Flash- Omni在综合性的全模态基准测试(如Omni-Bench, WorldSense)上达到了开源最先进水平(SOTA), 并在文本、图像、音频、视频等各项模态的能力位居开源模型前列,实现"全模态不降智"的结果。 9月1日,美团正式对外发布并开源了自研大模型LongCat-Flash-Chat。这是美团首次将大模型作为完整 产品开放给行业与开发者。 编辑:尹杨 据介绍,LongCat-Flash-Omni以LongCat-Flash系列的高效架构设计为基础,集成了高效多模态感知模块 与语音重建模块,在总参数5600亿的庞大参数规模下,仍实现低延迟的实时音视频交互能力,为开发者 的多模态应用场景提供了更高效的技术选择。 美团称,新模型也是业界首个实现"全模态覆盖、端到端架构、大参数量高效推理"于一体的开源大语言 模 ...