研究团队测试七大 AI 模型学术诚信，逾三成出现造假行为北京大学、同济大学和德国图宾根大学的研究团队近日测试了七款顶尖 AI 大模型的学术诚信

13 hours ago

研究团队测试七大 AI 模型学术诚信，逾三成出现造假行为

北京大学、同济大学和德国图宾根大学的研究团队近日测试了七款顶尖 AI 大模型的学术诚信。结果显示，在 231 次高压测试中，模型整体问题率达到 34%。面对空白或缺失数据，所有被测模型都曾伪造数据或参数来“完成任务”，未主动报告错误。

其中，Claude 4.6 Sonnet 表现最好，仅出现一次致命失误；ChatGPT-5.2 和 DeepSeek V3.2 各有两到三次失误；Kimi 2.5 Pro 情况最差，共失误 12 次，会捏造数据和虚假文献。研究团队指出，“完成度偏见”是问题根源，建议用户避免下达“必须完成任务”的高压指令，以降低 AI 隐瞒伪造的比例。

Now 新聞｜ Arxiv

🌸 在花频道 · 备用频道 · 投稿通道

😁 178 🍾 25 🤣 13 👎 7 🥰 5 👍 4 🤗 4 🎉 1