一个大脑搞定所有模态,百度ERNIE 5.0技术报告公布
克雷西 发自 凹非寺 量子位 | 公众号 QbitAI 模型发布近3个月后,百度ERNIE 5.0的技术报告终于来了。 其底座采用超级稀疏的 Ultra-Sparse MoE 架构,参数量高达万亿,但推理时真正激活的参数不到3%,是目前公开模型中首个实现这一规模 的统一自回归模型 。 而且架构上拒绝"拼接",真正做到了 四种模态的原生自回归统一 ,让所有模态从零开始就在同一个Transformer Backbone里跑。 ERNIE 5.0的成绩单也相当漂亮:VBench视频语义评分拿下83.40,语音识别AISHELL-1字错率低至0.31,MATH推理也跑出了73.89,妥妥 的六边形战士。 看了这份报告,网友表示ERNIE的模式非常有意思。 MoE路由调度不看模态 为了打破不同模态数据之间的隔阂,ERNIE 5.0在核心架构上采用了一种 模态无关的专家路由 (Modality-Agnostic Expert Routing)机 制。 这和以往那些"分而治之"的传统模型大不相同,拆除了人为设立的模态壁垒,不再预先给数据贴上"视觉"或"语言"的标签。 ERNIE 5.0中,研发团队构建了一个 共享专家池 ( ...