浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准,包含 5 万个化学和生物领域不同层次的科学评测题目,并用于对 20 个开源和闭源 LLMs 测试。通用大语言模型如 GPT-4o 等表现出色,专业领域大模型如 ChemDFM-13B 等在专业知识测试中整体优秀,L1-L4 与 L5 性能排名有时差异大,原因在于任务性质不同,基座大模型的 SFT 任务选择和处理至关重要。SciKnowEval 通过五个层次评估 LLMs 科学知识和应用能力。
浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准,包含 5 万个化学和生物领域不同层次的科学评测题目,并用于对 20 个开源和闭源 LLMs 测试。通用大语言模型如 GPT-4o 等表现出色,专业领域大模型如 ChemDFM-13B 等在专业知识测试中整体优秀,L1-L4 与 L5 性能排名有时差异大,原因在于任务性质不同,基座大模型的 SFT 任务选择和处理至关重要。SciKnowEval 通过五个层次评估 LLMs 科学知识和应用能力。