兄弟们,刚通宵测完SD 3.5的本地部署,来跟大家汇报一手。今天凌晨Stability AI悄悄放出了3.5版本,核心变化在架构上——用上了MMDiT-X(多模态扩散Transformer变体),参数从2.5的8亿降到6.5亿,但推理效率飙升。
实测下来,在RTX 4090上生成1024x1024单图,老版本要8秒,现在不到5秒。关键是对理解复杂提示词(比如“戴着透明雨帽的赛博朋克女孩,雨滴从帽檐滑落折射霓虹灯”)的准确率提升了约30%,不再胡乱生成蜘蛛腿手指。
技术细节:新架构引入了“动态步长调度”,模型在推理时会根据当前图像复杂度自动调整去噪步数,简单场景只用20步,复杂场景用到35步,平均节省25%计算资源。另外,官方这次开放了LoRA的低精度适配(FP8),显存8G的3060都能跑,门槛降了一大截。
想玩的直接去HuggingFace下ckpt,配合ComfyUI的最新Nightly版,已经原生支持。注意需要torch 2.4+,否则会爆显存。 |