OpenAI 研究称让模型生成“自白”可提升语言模型的诚实度OpenAI一项早期概念验证技术训练模型产生独立“自白”输出，报告其违反指令或采取意外捷径的行为

19:47 · Dec 4, 2025 · Thu

OpenAI 研究称让模型生成“自白”可提升语言模型的诚实度

OpenAI一项早期概念验证技术训练模型产生独立“自白”输出，报告其违反指令或采取意外捷径的行为。该方法将主要回答按正确性、合规性和安全性等多维度评估，而“自白”仅针对诚实度训练，即使承认违规也不会影响主要回答奖励。

测试显示，该方法显著提高模型违规行为的可见性，在多项诱导违规评估中，假阴性率平均仅为4.4%。研究使用GPT-5 Thinking模型，在对抗性数据集上验证其有效性，并计划进一步扩展以增强AI安全监控。

OpenAI

🍀在花频道 🍵茶馆 📮投稿新鲜事

🤷‍♂ 104 👍 13 ❤️ 9 😁 5 🤯 3

2 🥰 1 🤔 1