Workflow
Anthropic分析了70万条Claude对话,发现AI已形成自有价值观
3 6 Ke·2025-04-22 11:30

4月22日消息,OpenAI竞争对手Anthropic近日首次公开披露其AI助手Claude在真实用户对话中的价值观表达研究成果。这项开创性研究 不仅验证了AI系统在实际应用中与公司既定价值目标的一致性,也揭示了一些可能影响AI安全性的边缘案例。 Anthropic基于70万条匿名对话开展大规模分析,结果显示,Claude在绝大多数互动中能够遵循"有益、诚实、无害"的核心原则,并能根 据不同任务场景(从情感建议到历史事件分析)灵活调整其价值表达方式。这标志着业界首次实现对商业化AI系统"实际行为是否符合设 计预期"的实证评估。 Anthropic社会影响团队成员、本研究共同作者Saffron Huang表示:"我们希望这项研究能推动更多AI实验室投入类似的模型价值观研究工 作。理解并量化AI系统在真实互动中展现出的价值观,是检验其是否真正对齐训练目标的关键环节,也是AI对齐研究的基础。" 以下为Anthropic的研究发现: 人们向AI提出的问题,远不止是解答数学题或提供事实信息。许多问题实际上都迫使AI做出价值判断。例如: Anthropic正通过"宪法AI"(Constitutional AI)与"角色训 ...