“人类终极考试”基准测试发布：顶级AI系统表现惨淡，准确率均未超10%非营利组织“人工智能安全中心”（CAIS）与Scale AI联合推出名为“人类终极考试”的新型基准测试，旨在评估前沿AI系统的综合能力

20:22 · Jan 24, 2025 · Fri

“人类终极考试”基准测试发布：顶级AI系统表现惨淡，准确率均未超10%

非营利组织“人工智能安全中心”（CAIS）与Scale AI联合推出名为“人类终极考试”的新型基准测试，旨在评估前沿AI系统的综合能力。该测试由来自50个国家500多个机构的近1000名学科专家出题，涵盖数学、人文学科和自然科学等领域，题目形式多样，包括结合图表和图像的复杂题型。

初步研究显示，所有公开可用的旗舰AI系统在该测试中的回答准确率均未超过10%，表明当前AI技术在应对复杂、综合性问题时仍存在明显短板。CAIS和Scale AI计划向研究社区开放该测试，以帮助评估新开发的AI模型。

HLE

📮投稿 ☘️频道 🌸聊天

😁 160 👍 36 🔥 17 🗿 11 🙈 5 🤝 4 💊 3 ❤️ 2 👎 2 🤔 2 🎉 1