能量最小化过程

Search documents
基于能量的Transformer横空出世!全面超越主流模型35%
量子位· 2025-07-08 07:30
时令 发自 凹非寺 量子位 | 公众号 QbitAI AI无需监督就能学习思考? 弗吉尼亚大学团队最新提出 EBT(Energy-Based Transformers)架构 ,通过全新能量机制,首次实现在跨模态以及数据、参数、计算量 和模型深度等多个维度全面超越Transformer++(基于Llama 2的Transformer优化版本)的模型。 在离散(文本)和连续(视觉)模态下,EBT在数据量、批次大小、参数量、计算量和模型深度等方面比Transformer++提升了约35%。 EBT是基于EBM(Energy-Based Models)原理发展而来的具体模型架构。 这让模型具备了像人类一样"想清楚再回答"的能力。 在推理过程中,EBT在测试时也比Transformer++提高了29%。 那么,这种模拟人类思考模式的新架构EBT,到底是如何实现的呢? EBT方法:基于能量的Transformer EBT通过 能量最小化过程 模拟思考:从随机预测开始,通过梯度下降反复优化,直到能量收敛,从而动态决定"思考步数"。 它通过学习一个 能量函数 ,为每一种输入配置分配一个标量值。 能量越低,表示输入变量之间的兼 ...