浙大、腾讯团队发布科学LLM大规模评测基准，国产大模型表现亮眼

浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准，包含 5 万个化学和生物领域不同层次的科学评测题目，并用于对 20 个开源和闭源 LLMs 测试。通用大语言模型如 GPT-4o 等表现出色，专业领域大模型如 ChemDFM-13B 等在专业知识测试中整体优秀，L1-L4 与 L5 性能排名有时差异大，原因在于任务性质不同，基座大模型的 SFT 任务选择和处理至关重要。SciKnowEval 通过五个层次评估 LLMs 科学知识和应用能力。

浙大、腾讯团队发布科学LLM大规模评测基准，国产大模型表现亮眼

联系我们

400-800-8888