随着大型语言模型和多模态对齐技术发展,视频理解模型在开放领域有进展,但当前多数模型存在时间信息丢失和问答能力局限问题。为此,提出基于视觉模型的自动时间定位数据构建方法,生成 3 万条相关视频问答数据,并基于新数据集和现有开放领域问答数据,引入多帧视频图像和时间戳作为输入训练新的视频理解模型 CogVLM2-Video。该模型在公共视频理解基准上性能出色,在视频字幕生成和时间定位等方面表现优,其解决了现有模型时间感知能力缺失等问题,还介绍了数据集的构造流程和模型在多个公开评测集上的优秀评测结果。
随着大型语言模型和多模态对齐技术发展,视频理解模型在开放领域有进展,但当前多数模型存在时间信息丢失和问答能力局限问题。为此,提出基于视觉模型的自动时间定位数据构建方法,生成 3 万条相关视频问答数据,并基于新数据集和现有开放领域问答数据,引入多帧视频图像和时间戳作为输入训练新的视频理解模型 CogVLM2-Video。该模型在公共视频理解基准上性能出色,在视频字幕生成和时间定位等方面表现优,其解决了现有模型时间感知能力缺失等问题,还介绍了数据集的构造流程和模型在多个公开评测集上的优秀评测结果。