Workflow
提升大模型内在透明度:无需外部模块实现高效监控与自发安全增强|上海AI Lab & 上交
量子位·2025-06-23 04:45

PR-TELLME团队 投稿 量子位 | 公众号 QbitAI 大语言模型(LLM)能力提升引发对潜在风险的担忧,洞察其内部"思维过程"、识别危险信号成AI安全核心挑战。 当前主流用外部"黑盒"监控模块解读模型表征,此类方法如"隔靴搔痒":独立于模型,解读逻辑不透明、结果可信度低,且对数据分布变化敏 感、适应性差,难触推理本质,无法满足监控需求。 上海人工智能实验室 和 上海交通大学的研究团队提出创新解决方案——TELLME (Transparency Enhancement of LLMs without External modules)。 该方法摒弃了复杂的外部监控模块,通过"表征解耦"技术,直接提升大模型自身的内部透明度。 破局新思路:从外部监控转向内在透明 其核心理念是:让模型关于不同行为(尤其是安全与不安全行为)的内部"思维语言"(表征)在空间中清晰分离、泾渭分明。这不仅为模型监 控开辟了更可靠、更简单的途径,还意外地提升了模型输出的安全性。 引入对比学习损失(如InfoNCE Loss)作为核心驱动力。该损失函数促使模型将语义/风险相似的问题表征拉近聚合,同时将不同(尤其是安 全与不安全)问题的 ...