给视频模型安上快慢两只眼睛,苹果免训练新方法秒了一切SOTA

AI 视频生成领域日益热闹,新的视频大模型表现出色,但背后需高成本的数据集和存在一些问题。针对这些,苹果研究人员提出 SlowFast-LLaVA(SF-LLaVA),基于 LLaVA-NeXT 架构,设计了 SlowFast 输入机制,有慢速和快速路径,解决现有视频 LLM 痛点。实验结果显示其在基准测试中超越现有免训练方法,与精心微调的 SFT 模型性能相当甚至更好。模型架构遵循标准流程,对输入视频采样和处理,实验从开放式视频问答、多项选择视频问答、文生视频等方面进行,SF-LLaVA 均有较好表现。

Previous:

Next:

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信