奥林匹克竞赛里选最聪明的AI:Claude-3.5-Sonnet vs. GPT-4o?

上海交通大学生成式人工智能实验室(GAIR Lab)的研究团队专注于大模型训练、对齐与评估,推出了OlympicArena作为新的大模型认知推理能力评估基准,涵盖数学、物理、化学、生物、地理、天文、计算机等七大核心学科,包含11163道中英双语题目。该基准的目的是全面评估AI模型的能力,特别是在复杂推理能力上的表现。研究团队发现,即使是GPT-4o,其正确率也仅为39%,GPT-4V则为33%,表明AI在科学问题的求解上与人类还存在差距,其内在的推理能力仍需提高。OlympicArena的特点包括全面覆盖多个学科和题型、极具挑战性的题目设计、细粒度的评估方法等,使其成为一个理想的平台,用于评估AI模型在不同类型的推理能力上的表现。

上一篇:

下一篇:

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信