浙大、腾讯团队发布科学LLM大规模评测基准,国产大模型表现亮眼

浙江大学 NLP 实验室与腾讯 AI Lab 的研究者构建了 SciKnowEval 评测基准,包含 5 万个化学和生物领域不同层次的科学评测题目,并用于对 20 个开源和闭源 LLMs 测试。通用大语言模型如 GPT-4o 等表现出色,专业领域大模型如 ChemDFM-13B 等在专业知识测试中整体优秀,L1-L4 与 L5 性能排名有时差异大,原因在于任务性质不同,基座大模型的 SFT 任务选择和处理至关重要。SciKnowEval 通过五个层次评估 LLMs 科学知识和应用能力。

上一篇:

下一篇:

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信