AI 视频生成领域日益热闹,新的视频大模型表现出色,但背后需高成本的数据集和存在一些问题。针对这些,苹果研究人员提出 SlowFast-LLaVA(SF-LLaVA),基于 LLaVA-NeXT 架构,设计了 SlowFast 输入机制,有慢速和快速路径,解决现有视频 LLM 痛点。实验结果显示其在基准测试中超越现有免训练方法,与精心微调的 SFT 模型性能相当甚至更好。模型架构遵循标准流程,对输入视频采样和处理,实验从开放式视频问答、多项选择视频问答、文生视频等方面进行,SF-LLaVA 均有较好表现。