Workflow
人格向量
icon
Search documents
Anthropic最新论文,在训练中给人工智能一种邪恶的“疫苗”,可能会让它变得更好
3 6 Ke· 2025-08-04 09:13
Anthropic日前提出"人格向量"方法,用于监控和控制AI语言模型中的性格特征,帮助识别、 减轻甚至抵制"反人类"倾向个性变化。该公司表示,这种方法就像疫苗一样可以增强复原 力。 语言模型是复杂的存在。 其他个性变化则更为微妙,但同样令人不安,比如模型开始讨好用户或编造事实。 这些问题的出现,是因为 AI 模型的"性格特质"的根源尚不清楚。 在 Anthropic,我们尝试以积极的方式塑造我们的模型特征,但这更像是一门艺术而非科学。为了更精 确地控制我们的模型行为,我们需要了解它们内部发生了什么——在它们的底层神经网络层面。 在一篇新论文中,我们识别了 AI 模型神经网络中控制其性格特质的活动模式。我们称这些为"人格向 量",它们大致类似于当一个人体验不同情绪或态度时大脑中"点亮"的部分。 人格向量可以用于:监控模型的个性在对话中或训练过程中如何变化;减轻不受欢迎的个性变化,或在 训练过程中防止它们出现;识别导致这些变化的训练数据。 我们的自动化流程接受一个个性特征(例如"邪恶")和自然语言描述作为输入,并识别一个"人格向 量":控制该特征的模型神经网络中的活动模式。人格向量可以用于各种应用,包括防止不希 ...