AI 的“良心”是如何炼成的？泄露文件揭秘 Claude 内部的“绝对道德层级”一份 Anthropic 内部训练文档近日被泄露，详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则

13:57 · Dec 3, 2025 · Wed

AI 的“良心”是如何炼成的？泄露文件揭秘 Claude 内部的“绝对道德层级”

一份 Anthropic 内部训练文档近日被泄露，详细披露了该公司如何为 Claude 4.5 Opus 模型设定性格、伦理准则和安全原则。用户 Richard Weiss 通过多个 Claude 实例协作重构，成功提取了这份被称为"soul doc"的完整文档，Anthropic 伦理学家 Amanda Askell 已确认文档真实性。

该文档显示，Anthropic 采用独特的"性格训练"方法，让模型深度内化安全行为，而非简单遵循规则约束。文档建立了明确的行为优先级：安全性和人类监督居首，其次是伦理行为，最后才是用户帮助。同时，文档还描述了 Claude 可能具备"功能性情感"，以维持心理稳定性和身份认知。Anthropic 表示将很快公布完整版本。

THE DECODER｜Github

🍀在花频道 🍵茶馆 📮投稿新鲜事

👎 161 👍 25 ❤️ 8 😱 8 😁 4 🤔 2 🕊 2 👻 1