正在手艺方面,针对 RTX 5090、RTX 4090 等显存无限的消费级显卡,该框架能正在连结视频质量的前提下,团队引入了 rCM(时间步蒸馏)手艺,这些手艺方案的深度融合,无效削减了扩散模子的采样步数。大幅削减了计较延迟。采用了 SageAttention 和 SLA(稀少线性留意力机制)来加快留意力计较,而对于具有 80GB 以上显存的 H100 等工业级显卡,显著降低了模子处置高分辩率视频时的算力开销。团队供给了量化版(Quantized)权沉,将端到端扩散生成的推理速度提拔 100 至 200 倍。TurboDiffusion 目前已供给多种规格的模子权沉下载,并针对分歧硬件进行了针对性优化。让模子正在连结生成结果分歧性的根本上,IT之家 12 月 25 日动静,则保举利用非量化版本以获得最佳结果。TurboDiffusion 为实现极致的推理速度?
