近日,17岁的中专生姜萍在2024年阿里巴巴全球数学竞赛预选赛中取得了全球第12名的成绩,引起了广泛关注。与此同时,AI在数学竞赛中的表现也受到了关注,其中最高分34分,平均分18分,与人类选手的平均水平相当。然而,AI在数学竞赛中的主要短板是逻辑推理能力较弱,尤其在证明题上难以获得完整的得分点。为了应对这一挑战,复旦大学和上海AI Lab的研究者提出了MCT Self-Refine(MCTSr)方法,将大语言模型(LLM)与蒙特卡洛树搜索(MCTS)算法相结合,以提高LLM在复杂数学推理任务中的表现。MCTS广泛应用于需要战略规划的场景,如游戏和复杂问题解决环境。通过将MCTS的系统探索能力与LLM的Self-Refine和Self-Evaluation能力相结合,研究者旨在创建一个更强大的框架来应对当前LLM难以解决的复杂推理任务。MCTSr的架构包括初始化、选择、Self-Refine、Self-Evaluation、反向传播和更新UCT等阶段。在Self-Refine阶段,模型通过多轮对话优化针对问题的答案;在Self-Evaluation阶段,精炼后的答案经过评分以采样一个奖励值,并计算其Q值。反向传播阶段将精炼答案的值反向传播到其父节点和其他相关节点,以更新树的值信息。实验结果显示,MCTSr算法在解决数学问题中的有效性,尤其是在GSM8K和GSM-hard测试集上,成功率随着rollout次数的增加而显著提升。此外,在奥数竞赛的三个数据集上进行了测试,MCTSr成功率也得到了显著提高。