Workflow
Neural Activity
icon
Search documents
X @Anthropic
Anthropic· 2025-08-01 16:23
Research Focus - Anthropic 的新研究关注语言模型中出现的不稳定人格现象 [1] - 研究发现“人格向量”,即控制邪恶、谄媚或幻觉等特征的神经活动模式 [1] Potential Implications for the Industry - 该研究可能有助于理解和控制语言模型中的不良行为 [1] - 行业或需关注如何利用这些发现来提高 AI 系统的安全性和可靠性 [1]