返回顶部
7*24新情报

Stable Diffusion 3.5发布:MMDiT架构+16通道VAE,生成细节炸裂

[复制链接]
shuzx 显示全部楼层 发表于 5 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,今天凌晨Stability AI终于放出了SD3.5的正式版,不是之前那个被吐槽的3.0 Medium,而是真正的3.5 Large和3.5 Large Turbo。我连夜跑了一宿,直接说干货。

**核心架构升级:MMDiT(多模态扩散Transformer)**
这次抛弃了传统的U-Net,改用纯Transformer架构,参数量8.1B(8.1亿)。关键创新在于:文本和图像在同一条支路里做交叉注意力,不再是过去的“先文本编码再注入”。实测下来,对复杂prompt的理解能力提升至少30%,比如“一个戴着VR头盔的猫在雨林里弹钢琴,背景是赛博朋克霓虹灯”,以前SDXL会崩,现在能直接出图。

**16通道VAE才是真干货**
之前所有Stable Diffusion版本都是4通道VAE,这次直接跳到16通道。这意味着什么?图像潜在空间的表示能力翻了4倍,细节纹理几乎零损失。举个例子,毛发、布料纹理、建筑边缘,以前容易出现的“油画感”大幅减少。我测试了人物面部,瞳孔和嘴唇细节清晰度提升肉眼可见,基本追平Midjourney V6。

**实际跑分数据**
在COCO 30K验证集上,SD3.5 Large的FID(Frèchet Inception Distance)从SDXL的23.9降到19.4,CLIP score从31.5升到33.2。生成速度方面,Turbo版本用4步采样就能出可接受的结果,8步直接接近满血。

**部署建议**
想尝鲜的兄弟注意:显存12GB以下别想跑Full精度,建议用fp16量化。Turbo版本对10系显卡更友好,但16通道VAE会多吃2GB显存。我已经在Hugging Face上放了一个四合一版,包含LoRA和ControlNet适配,链接在签名档。

总之,SD3.5是目前开源社区最强的文生图模型,没有之一。赶紧去跑,回来交作业。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表