给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

AI 视频生成领域日益热闹，新的视频大模型表现出色，但背后需高成本的数据集和存在一些问题。针对这些，苹果研究人员提出 SlowFast-LLaVA（SF-LLaVA），基于 LLaVA-NeXT 架构，设计了 SlowFast 输入机制，有慢速和快速路径，解决现有视频 LLM 痛点。实验结果显示其在基准测试中超越现有免训练方法，与精心微调的 SFT 模型性能相当甚至更好。模型架构遵循标准流程，对输入视频采样和处理，实验从开放式视频问答、多项选择视频问答、文生视频等方面进行，SF-LLaVA 均有较好表现。

给视频模型安上快慢两只眼睛，苹果免训练新方法秒了一切SOTA

联系我们

400-800-8888