随着人工智能技术发展,多模态大模型成为研究热点,数学问答成为衡量其推理能力的重要基准。受人类解题思维模式启发,We-Math构建了知识体系和拆解问题来探究模型作答机制,引入新的四维度量标准。实验对17个模型进行评测,发现模型作答与知识点数量负相关,多数模型存在知识掌握不足和死记硬背问题,GPT-4o表现最佳且已迈向新阶段,KCA策略能提升模型表现。We-Math是用于评测LMMs视觉数学推理作答机制的综合基准。
真相了!大模型解数学题和人类真不一样:死记硬背、知识欠缺明显,GPT-4o表现最佳
Previous: 中共中央:建立人工智能安全监管制度