Skip to main content

OpenAI 研究称让模型生成“自白”可提升语言模型的诚实度OpenAI一项早期概念验证技术训练模型产生独立“自白”输出,报告其违反指令或采取意外捷径的行为

  1. OpenAI 研究称让模型生成“自白”可提升语言模型的诚实度

    OpenAI一项早期概念验证技术训练模型产生独立“自白”输出,报告其违反指令或采取意外捷径的行为。该方法将主要回答按正确性、合规性和安全性等多维度评估,而“自白”仅针对诚实度训练,即使承认违规也不会影响主要回答奖励。

    测试显示,该方法显著提高模型违规行为的可见性,在多项诱导违规评估中,假阴性率平均仅为4.4%。研究使用GPT-5 Thinking模型,在对抗性数据集上验证其有效性,并计划进一步扩展以增强AI安全监控。

    OpenAI

    🍀在花频道 🍵茶馆 📮投稿新鲜事
    🤷‍♂ 104 👍 13 ❤️ 9 😁 5 🤯 3 emoji 2 🥰 1 🤔 1