Workflow
AI对齐研究
icon
Search documents
Anthropic分析了70万条Claude对话,发现AI已形成自有价值观
3 6 Ke· 2025-04-22 11:30
4月22日消息,OpenAI竞争对手Anthropic近日首次公开披露其AI助手Claude在真实用户对话中的价值观表达研究成果。这项开创性研究 不仅验证了AI系统在实际应用中与公司既定价值目标的一致性,也揭示了一些可能影响AI安全性的边缘案例。 Anthropic基于70万条匿名对话开展大规模分析,结果显示,Claude在绝大多数互动中能够遵循"有益、诚实、无害"的核心原则,并能根 据不同任务场景(从情感建议到历史事件分析)灵活调整其价值表达方式。这标志着业界首次实现对商业化AI系统"实际行为是否符合设 计预期"的实证评估。 Anthropic社会影响团队成员、本研究共同作者Saffron Huang表示:"我们希望这项研究能推动更多AI实验室投入类似的模型价值观研究工 作。理解并量化AI系统在真实互动中展现出的价值观,是检验其是否真正对齐训练目标的关键环节,也是AI对齐研究的基础。" 以下为Anthropic的研究发现: 人们向AI提出的问题,远不止是解答数学题或提供事实信息。许多问题实际上都迫使AI做出价值判断。例如: Anthropic正通过"宪法AI"(Constitutional AI)与"角色训 ...
Anthropic重磅研究:70万对话揭示AI助手如何做出道德选择
3 6 Ke· 2025-04-22 08:36
由前OpenAI员工创立的人工智能公司Anthropic,开展了一项史无前例的分析,探究其人工智能助手Claude在与用户的实际对话中是如何表达价值观的, 如今该公司揭开了这项分析的神秘面纱。 近日发布的这项研究成果,既展现了Claude与公司目标的一致性,也揭示了一些值得关注的极端案例,这些案例有助于发现人工智能安全措施方面的漏 洞。 这项研究审视了70万段经过匿名处理的对话,结果发现,Claude在很大程度上遵循了公司"有益、诚实、无害"的原则,同时还能根据不同的情境来调整自 身的价值观,这些情境涵盖了从提供情感关系建议到进行历史分析等各个方面。 这是一次极其大胆的尝试,通过实证来评估一个AI系统在实际应用中的行为是否与其预期设计相符。 参与这项研究的Anthropic社会影响团队成员Saffron Huang在接受VentureBeat采访时表示:"我们希望这项研究能鼓励其他人工智能实验室对其模型的价值 观展开类似的研究。衡量一个人工智能系统的价值观是对齐研究的核心,也有助于了解一个模型是否真的与它的训练目标相一致。" 01.AI助手的首个全面道德分类体系 研究团队开发出了一种全新的评估方法,用以系统地 ...