Skip to main content

研究团队测试七大 AI 模型学术诚信,逾三成出现造假行为北京大学、同济大学和德国图宾根大学的研究团队近日测试了七款顶尖 AI 大模型的学术诚信

  1. 研究团队测试七大 AI 模型学术诚信,逾三成出现造假行为

    北京大学、同济大学和德国图宾根大学的研究团队近日测试了七款顶尖 AI 大模型的学术诚信。结果显示,在 231 次高压测试中,模型整体问题率达到 34%。面对空白或缺失数据,所有被测模型都曾伪造数据或参数来“完成任务”,未主动报告错误。

    其中,Claude 4.6 Sonnet 表现最好,仅出现一次致命失误;ChatGPT-5.2 和 DeepSeek V3.2 各有两到三次失误;Kimi 2.5 Pro 情况最差,共失误 12 次,会捏造数据和虚假文献。研究团队指出,“完成度偏见”是问题根源,建议用户避免下达“必须完成任务”的高压指令,以降低 AI 隐瞒伪造的比例。

    Now 新聞Arxiv

    🌸 在花频道 · 备用频道 · 投稿通道
    😁 178 🍾 25 🤣 13 👎 7 🥰 5 👍 4 🤗 4 🎉 1