答案抽取正确率达96.88%,xFinder断了大模型「作弊」的小心思

大语言模型(LLM)的快速发展引发了对其公平性和可靠性的评估方法的讨论。上海算法创新研究院和中国人民大学的研究团队近日发布了一篇名为《xFinder: Robust and Pinpoint Answer Extraction for Large Language Models》的论文,深入分析了LLM评估框架的整体流程,并重点评估了答案抽取器组件在大模型评估中的可靠性和一致性。当前的评估框架主要依赖正则表达式(RegEx)来抽取答案,但这种方法存在明显缺陷,人工复核结果显示其最佳抽取正确率仅为74.38%,评估结果极不可靠。为有效解决这一问题,研究团队开发了一个名为 xFinder 的新模型,用于更准确地抽取关键答案。xFinder 具有以下优势:不要求特定格式的答案输出,具备较强的答案抽取鲁棒性,抽取准确率高达95.18%,显著优于目前最佳LLM评估框架中的RegEx方法;支持多样化题型,能够将字母选择题自动转换为问答题,并支持不同题型的混排评估,从而降低测试者拟合题型的可能性。实验结果表明,xFinder 在多种任务上均表现出色,具备较高的鲁棒性和泛化能力。未来,该研究团队将继续优化xFinder,并研究其他评估关键问题,为LLM性能的可靠评估提供坚实基础。

上一篇:

下一篇:

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信