斯坦福大学的HELM MMLU大模型测评榜单最新结果显示,阿里巴巴的通义千问Qwen2-72B模型成为性能超越Llama3-70B的开源大模型,并在57项涵盖多领域任务的测试中表现卓越,基础模型研究中心主任Percy Liang强调了HELM框架的透明和可复现评估方法,Qwen2-72B在榜单中排名第五,是中国表现最佳的模型,且开源后下载量已超1600万,显示了其广泛的应用前景和行业影响力。
斯坦福大学的HELM MMLU大模型测评榜单最新结果显示,阿里巴巴的通义千问Qwen2-72B模型成为性能超越Llama3-70B的开源大模型,并在57项涵盖多领域任务的测试中表现卓越,基础模型研究中心主任Percy Liang强调了HELM框架的透明和可复现评估方法,Qwen2-72B在榜单中排名第五,是中国表现最佳的模型,且开源后下载量已超1600万,显示了其广泛的应用前景和行业影响力。