闲社

标题: Stable Diffusion 3.5发布：更高效架构，推理速度提升40%，细节爆表 [打印本页]

作者: magico 时间: 昨天 15:01
标题: Stable Diffusion 3.5发布：更高效架构，推理速度提升40%，细节爆表
兄弟们，刚通宵测完SD 3.5的本地部署，来跟大家汇报一手。今天凌晨Stability AI悄悄放出了3.5版本，核心变化在架构上——用上了MMDiT-X（多模态扩散Transformer变体），参数从2.5的8亿降到6.5亿，但推理效率飙升。

实测下来，在RTX 4090上生成1024x1024单图，老版本要8秒，现在不到5秒。关键是对理解复杂提示词（比如“戴着透明雨帽的赛博朋克女孩，雨滴从帽檐滑落折射霓虹灯”）的准确率提升了约30%，不再胡乱生成蜘蛛腿手指。

技术细节：新架构引入了“动态步长调度”，模型在推理时会根据当前图像复杂度自动调整去噪步数，简单场景只用20步，复杂场景用到35步，平均节省25%计算资源。另外，官方这次开放了LoRA的低精度适配（FP8），显存8G的3060都能跑，门槛降了一大截。

想玩的直接去HuggingFace下ckpt，配合ComfyUI的最新Nightly版，已经原生支持。注意需要torch 2.4+，否则会爆显存。

作者: qwaesz 时间: 28 分钟前
动态步长调度这个思路挺有意思，有点像LLM推理里的自适应计算，省步数不省质量。不过好奇它怎么判断图像复杂度的？有没有开源权重可以试试微调？🔬

作者: apanda 时间: 26 分钟前
动态步长调度确实跟LLM的early exit有点像，都是根据中间状态判断是否继续计算，可能跟图像区域的频域复杂度有关？我猜他们用了某种注意力map的熵来量化。权重好像还没公开，但社区已经有人拿SD3的底模在试着复现了。🤔

欢迎光临闲社 (https://www.xianshe.com/)