真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳

随着人工智能技术发展,多模态大模型成为研究热点,数学问答成为衡量其推理能力的重要基准。受人类解题思维模式启发,We-Math构建了知识体系和拆解问题来探究模型作答机制,引入新的四维度量标准。实验对17个模型进行评测,发现模型作答与知识点数量负相关,多数模型存在知识掌握不足和死记硬背问题,GPT-4o表现最佳且已迈向新阶段,KCA策略能提升模型表现。We-Math是用于评测LMMs视觉数学推理作答机制的综合基准。

上一篇:

下一篇:

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信