随着大型语言模型和多模态对齐技术发展,视频理解模型在开放领域有进展,但当前多数模型存在时间信息丢失和问答能力局限问题。为此,提出基于视觉模型的自动时间定位数据构建方法,生成 3 万条相关视频问答数据,并基于新数据集和现有开放领域问答数据,引入多帧视频图像和时间戳作为输入训练新的视频理解模型 CogVLM2-Video。该模型在公共视频理解基准上性能出色,在视频字幕生成和时间定位等方面表现优,其解决了现有模型时间感知能力缺失等问题,还介绍了数据集的构造流程和模型在多个公开评测集上的优秀评测结果。
智谱AI再升级!推出开源Video 版 CogVLM2
Previous: 商汤发布“东风”泰语大模型:全球首次实现可在泰 / 中 / 英环境下高效工作
Next: 百度推出仿真人AI社交App“文小言”