智谱开源视频生成模型,显卡可运行
IT之家8月28日消息,智谱开源视频生成模型,显卡可运行智谱AI开源了CogVideoX-5B视频生成模型,相比此前开源的CogVideoX-2B,官方称其视频生成质量更高,视觉效果更好。
官方表示大幅度优化了模型的推理性能,推理门槛大幅降低,可以在GTX1080Ti等早期显卡运行CogVideoX-2B,在RTX3060等桌面端“甜品卡”运行CogVideoX-5B模型。
CogVideoX是一个大规模DiT(diffusiontransformer)模型,用于文本生成视频任务,主要采用了以下技术:
3DcausalVAE:通过压缩视频数据到latentspace,并在时间维度上进行解码来实现高效的视频重建。
专家Transformer:将文本embedding和视频embedding相结合,使用3D-RoPE作为位置编码,采用专家自适应层归一化处理两个模态的数据,以及使用3D全注意力机制来进行时空联合建模。
CogVideoX-5B与CogVideoX-2B详细参数比较如下:
免责声明:本网站部分内容由用户自行上传,若侵犯了您的权益,请联系我们处理,谢谢!联系QQ:无敌椰子
评论