大型语言模型在数学推理的基准测试中成绩出色,但在问题稍作改变时易出错。为探究此,作者设计了评估基准GSM-Plus,对25个LLMs进行评测。该基准受Polya原则启发,从数值变化、算术变化、问题理解、干扰项插入、批判性思维五个方面构建,基于GSM8K生成包含10,552个问题变体的数据集。实验发现,LLMs在GSM-Plus上表现困难,任务特定优化能提高下游任务准确性,面对某些扰动时性能下降,组合提示方法Comp有一定效果但仍有差距。与其他数据集相比,GSM-Plus覆盖面全且质量高。通过多种评测分析,发现LLMs在数学推理的鲁棒性上有待提高,期待未来有更多研究促进其发展。