Ilya刚预言完,世界首个原生多模态架构NEO就来了:视觉和语言彻底被焊死
SENSETIMESENSETIME(HK:00020) 3 6 Ke·2025-12-05 07:06

要知道,此前主流的多模态大模型,例如我们熟悉的GPT-4V、Claude 3.5等,它们的底层逻辑本质上其实玩的就是拼接。 什么意思呢? 当Ilya Sutskever最近公开宣称"纯靠Scaling Law的时代已经结束",并断言"大模型的未来不在于单纯的规模更大,而是要架构变得更聪明"时,整个AI界都 意识到了一场范式转移正在发生。 因为过去几年,行业似乎沉迷于用更多数据、更大参数、更强算力堆出更强的模型,但这条路正逼近收益递减的临界点。 Ilya和LeCun等顶尖AI大佬不约而同地指出:真正的突破,必须来自架构层面的根本性创新,而非对现有Transformer流水线的修修补补。 就在如此关键节点,一个来自中国研究团队的新物种横空出世: 全球首个可大规模落地的开源原生多模态架构(Native VLM),名曰NEO。 △ 就是将一个预训练好的视觉编码器(比如 ViT)通过一个小小的投影层,嫁接到一个强大的大语言模型上。 这种模块化的方式虽说是实现了多模态,但视觉和语言始终是两条平行线,只是在数据层面被粗暴地拉到了一起。 而这项来自商汤科技与南洋理工大学等高校的联合研究,要做的就是从根上颠覆这一切。 在NEO ...