美国 Argonne 国家实验室等团队联合提出 SciQAG 框架,这是首个基于大语言模型从科学文献语料库自动生成高质量科学开放式问答对的新型框架,并构建了 SciQAG-24D 数据集。SciQAG 由 QA 生成器和评估器组成,生成器经对比实验设计两步提示词,评估器用综合指标 RACAR 过滤低质量问答对。该研究获取 22743 篇高引用论文构建可靠科学知识源,用 GPT-4 评估生成的问答对,建立含训练集和测试集的 SciQAG-24D 基准数据集。实验对比不同语言模型零样本性能,发现 GPT-4 等表现出色,开源模型也有进步;微调 LLaMA1 后性能显著提高,在多种科学任务上表现优于或接近专门模型,证明 LLM 在科学任务中有潜力,SciQAG-24D 能增强 LLM 学习和应用科学知识的能力。