业务需求增加了长文本处理,考验大模型长文本能力,智谱的 GLM – 4 – long 支持高达 1M 上下文长度。作者用进阶版大海捞针测试,即插入中国队奥运金牌信息让模型整理,市面上多数大模型表现不佳,GLM – 4 – long 答对。还进行了苹果公司财报问答测试,效果不错。智谱哥们提到长文本模型通过“拾级而上”逐步适应不同上下文长度训练出来,过程中有提高训练吞吐量等细节技巧,智谱开源了 9b 版本权重,开源有助于行业发展。
突破大模型极限!GLM-4-long百万长文本模型上线bigmodel.cn
Previous: 给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA
Next: 大模型做PPT有多牛?讯飞智文带来重磅升级!