Workflow
离散原生分辨率视觉分词器(dNaViT)
icon
Search documents
美团发布原生多模态大模型 LongCat-Nex
Bei Jing Shang Bao· 2026-03-27 15:19
北京商报讯(记者 魏蔚)3月27日,美团发布并全面开源原生多模态大模型 LongCat-Next 及其核心组 件——离散原生分辨率视觉分词器(dNaViT)。该模型打破了当前大模型以"语言为中心"的传统拼凑 式架构,将图像、语音与文本统一映射为同源的离散 Token。通过纯粹的"下一个 Token 预测"范式, LongCat-Next 让视觉与语音成为 AI 的"原生母语"。 ...
美团发布原生多模态大模型LongCat-Next
Xin Lang Cai Jing· 2026-03-27 03:44
新浪科技讯 3月27日上午消息,美团发布并全面开源原生多模态大模型LongCat-Next及其核心组件离散 原生分辨率视觉分词器(dNaViT)。 该模型打破了当前大模型以"语言为中心"的传统拼凑式架构,将图像、语音与文本统一映射为同源的离 散Token。通过纯粹的"下一个Token预测"(Next Token Prediction,NTP)范式,LongCat-Next让视觉与 语音成为AI的"原生母语"。 责任编辑:江钰涵 据介绍,LongCat-Next实现了三项关键技术突破:一是离散原生自回归架构(DiNA)彻底打破模态隔 阂;二是离散原生分辨率视觉分词器(dNaViT)构造视觉世界的"词典",三是语义对齐完备编码器破 解"离散化必然损失信息"的行业难题。 责任编辑:江钰涵 新浪科技讯 3月27日上午消息,美团发布并全面开源原生多模态大模型LongCat-Next及其核心组件离散 原生分辨率视觉分词器(dNaViT)。 该模型打破了当前大模型以"语言为中心"的传统拼凑式架构,将图像、语音与文本统一映射为同源的离 散Token。通过纯粹的"下一个Token预测"(Next Token Predictio ...