此前视频扩散模型采用 U-Net 架构存在限制,Sora 采用 DiT 架构有所突破,但基于 Transformer 的扩散模型在生成可控动作视频方面有待探索。阿里研究者提出 Tora,这是首个面向轨迹的 DiT 架构,能集成多种条件生成视频,设计与 DiT 可扩展性契合,实验证明其表现出色。Tora 采用 OpenSora 作为基础模型,包含轨迹提取器、时空 DiT 和运动引导融合器。在实验中,Tora 与流行方法比较,对帧数变化稳健,运动控制能力卓越,轨迹误差渐进增加,视觉质量更好,保真度更高。