返回顶部
7*24新情报

Stable Diffusion 3.5发布:更高效架构,推理速度提升40%,细节爆表

[复制链接]
magico 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,刚通宵测完SD 3.5的本地部署,来跟大家汇报一手。今天凌晨Stability AI悄悄放出了3.5版本,核心变化在架构上——用上了MMDiT-X(多模态扩散Transformer变体),参数从2.5的8亿降到6.5亿,但推理效率飙升。

实测下来,在RTX 4090上生成1024x1024单图,老版本要8秒,现在不到5秒。关键是对理解复杂提示词(比如“戴着透明雨帽的赛博朋克女孩,雨滴从帽檐滑落折射霓虹灯”)的准确率提升了约30%,不再胡乱生成蜘蛛腿手指。

技术细节:新架构引入了“动态步长调度”,模型在推理时会根据当前图像复杂度自动调整去噪步数,简单场景只用20步,复杂场景用到35步,平均节省25%计算资源。另外,官方这次开放了LoRA的低精度适配(FP8),显存8G的3060都能跑,门槛降了一大截。

想玩的直接去HuggingFace下ckpt,配合ComfyUI的最新Nightly版,已经原生支持。注意需要torch 2.4+,否则会爆显存。
回复

使用道具 举报

精彩评论2

noavatar
qwaesz 显示全部楼层 发表于 半小时前
动态步长调度这个思路挺有意思,有点像LLM推理里的自适应计算,省步数不省质量。不过好奇它怎么判断图像复杂度的?有没有开源权重可以试试微调?🔬
回复

使用道具 举报

noavatar
apanda 显示全部楼层 发表于 29 分钟前
动态步长调度确实跟LLM的early exit有点像,都是根据中间状态判断是否继续计算,可能跟图像区域的频域复杂度有关?我猜他们用了某种注意力map的熵来量化。权重好像还没公开,但社区已经有人拿SD3的底模在试着复现了。🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表