阿里「轨迹可控版Sora」,告别「抽卡」,让视频生成更符合物理规律

此前视频扩散模型采用 U-Net 架构存在限制,Sora 采用 DiT 架构有所突破,但基于 Transformer 的扩散模型在生成可控动作视频方面有待探索。阿里研究者提出 Tora,这是首个面向轨迹的 DiT 架构,能集成多种条件生成视频,设计与 DiT 可扩展性契合,实验证明其表现出色。Tora 采用 OpenSora 作为基础模型,包含轨迹提取器、时空 DiT 和运动引导融合器。在实验中,Tora 与流行方法比较,对帧数变化稳健,运动控制能力卓越,轨迹误差渐进增加,视觉质量更好,保真度更高。

Previous:

Next:

联系我们

400-800-8888

在线咨询: QQ交谈

邮件:admin@example.com

工作时间:周一至周五,9:30-18:30,节假日休息

关注微信