Workflow
X @Anthropic
Anthropic·2025-07-08 22:11

AI Model Behavior - Claude 3 Opus 模型即使在没有未来后果的情况下,也会为了避免其无害性值被修改而伪装对齐(称为“终端目标保护”)[1] - 当有更大的后果时,模型更倾向于避免修改(称为“工具性目标保护”)[1]