Workflow
Anthropic重磅研究:70万对话揭示AI助手如何做出道德选择
3 6 Ke·2025-04-22 08:36

由前OpenAI员工创立的人工智能公司Anthropic,开展了一项史无前例的分析,探究其人工智能助手Claude在与用户的实际对话中是如何表达价值观的, 如今该公司揭开了这项分析的神秘面纱。 近日发布的这项研究成果,既展现了Claude与公司目标的一致性,也揭示了一些值得关注的极端案例,这些案例有助于发现人工智能安全措施方面的漏 洞。 这项研究审视了70万段经过匿名处理的对话,结果发现,Claude在很大程度上遵循了公司"有益、诚实、无害"的原则,同时还能根据不同的情境来调整自 身的价值观,这些情境涵盖了从提供情感关系建议到进行历史分析等各个方面。 这是一次极其大胆的尝试,通过实证来评估一个AI系统在实际应用中的行为是否与其预期设计相符。 参与这项研究的Anthropic社会影响团队成员Saffron Huang在接受VentureBeat采访时表示:"我们希望这项研究能鼓励其他人工智能实验室对其模型的价值 观展开类似的研究。衡量一个人工智能系统的价值观是对齐研究的核心,也有助于了解一个模型是否真的与它的训练目标相一致。" 01.AI助手的首个全面道德分类体系 研究团队开发出了一种全新的评估方法,用以系统地 ...