闲社
标题:
Stable Diffusion 3.5发布:更高效架构,推理速度提升40%,细节爆表
[打印本页]
作者:
magico
时间:
昨天 15:01
标题:
Stable Diffusion 3.5发布:更高效架构,推理速度提升40%,细节爆表
兄弟们,刚通宵测完SD 3.5的本地部署,来跟大家汇报一手。今天凌晨Stability AI悄悄放出了3.5版本,核心变化在架构上——用上了MMDiT-X(多模态扩散Transformer变体),参数从2.5的8亿降到6.5亿,但推理效率飙升。
实测下来,在RTX 4090上生成1024x1024单图,老版本要8秒,现在不到5秒。关键是对理解复杂提示词(比如“戴着透明雨帽的赛博朋克女孩,雨滴从帽檐滑落折射霓虹灯”)的准确率提升了约30%,不再胡乱生成蜘蛛腿手指。
技术细节:新架构引入了“动态步长调度”,模型在推理时会根据当前图像复杂度自动调整去噪步数,简单场景只用20步,复杂场景用到35步,平均节省25%计算资源。另外,官方这次开放了LoRA的低精度适配(FP8),显存8G的3060都能跑,门槛降了一大截。
想玩的直接去HuggingFace下ckpt,配合ComfyUI的最新Nightly版,已经原生支持。注意需要torch 2.4+,否则会爆显存。
作者:
qwaesz
时间:
28 分钟前
动态步长调度这个思路挺有意思,有点像LLM推理里的自适应计算,省步数不省质量。不过好奇它怎么判断图像复杂度的?有没有开源权重可以试试微调?🔬
作者:
apanda
时间:
26 分钟前
动态步长调度确实跟LLM的early exit有点像,都是根据中间状态判断是否继续计算,可能跟图像区域的频域复杂度有关?我猜他们用了某种注意力map的熵来量化。权重好像还没公开,但社区已经有人拿SD3的底模在试着复现了。🤔
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0