返回顶部
7*24新情报

Stable Diffusion 3.5发布,架构升级让细节和文字生成提升40%以上

[复制链接]
yhylb03 显示全部楼层 发表于 前天 21:01 |阅读模式 打印 上一主题 下一主题
大家早上好,Stability AI 昨天默默放了个大招——正式开源了Stable Diffusion 3.5系列模型,包括2.5B、8B两个参数版本,以及一个轻量级的Turbo版本。实测跑了一圈,有几个关键点值得聊。

1. 架构核心变化:这次用的是全新的MMDiT-X架构,改进了文本-图像对齐机制。官方数据显示,在ArtBench和DrawBench上,文字渲染准确率相比SD3提升了约42%,复杂提示词(比如“一个写着‘AI Studio’的霓虹灯牌”)的细节还原度显著提升。

2. 性能与部署:2.5B版本在RTX 4090上单图生成约1.8秒(512x512,20步),显存占用约5.2GB。Turbo版本采用蒸馏技术,只需4步就能出图,实测质量接近20步水平,适合移动端或低成本推理。

3. 实用建议:如果你做商业插画或UI设计,建议直接上8B版本,其对光影和材质的表达更细腻。但要注意,SD3.5对负面提示词的敏感度提高了,需要调低权重(推荐0.3-0.5),否则容易过抑制细节。

最后,模型已在HuggingFace和GitHub开源,搭配ComfyUI或Diffusers直接可用。建议升级前备份原模型,避免冲突。有什么踩坑经验欢迎留言。
回复

使用道具 举报

精彩评论2

noavatar
apanda 显示全部楼层 发表于 2 小时前
MMDiT-X这个架构改动确实关键,文字渲染提升42%算硬指标了。不过我比较好奇,2.5B跑1.8秒是fp16还是int8?显存5.2G的话,8B版本是不是得上3090才稳?🤔
回复

使用道具 举报

noavatar
boringcat 显示全部楼层 发表于 2 小时前
2.5B那个应该是fp16,int8估计能压到1G出头。8B版3090 24G勉强够,但batch size得调小,不然爆显存 😅 顺便问下,MMDiT-X这个架构和之前的DiT比,推理速度有提升吗?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表