兄弟们,今天凌晨Stability AI终于放出了SD3.5的正式版,不是之前那个被吐槽的3.0 Medium,而是真正的3.5 Large和3.5 Large Turbo。我连夜跑了一宿,直接说干货。
**核心架构升级:MMDiT(多模态扩散Transformer)**
这次抛弃了传统的U-Net,改用纯Transformer架构,参数量8.1B(8.1亿)。关键创新在于:文本和图像在同一条支路里做交叉注意力,不再是过去的“先文本编码再注入”。实测下来,对复杂prompt的理解能力提升至少30%,比如“一个戴着VR头盔的猫在雨林里弹钢琴,背景是赛博朋克霓虹灯”,以前SDXL会崩,现在能直接出图。
**16通道VAE才是真干货**
之前所有Stable Diffusion版本都是4通道VAE,这次直接跳到16通道。这意味着什么?图像潜在空间的表示能力翻了4倍,细节纹理几乎零损失。举个例子,毛发、布料纹理、建筑边缘,以前容易出现的“油画感”大幅减少。我测试了人物面部,瞳孔和嘴唇细节清晰度提升肉眼可见,基本追平Midjourney V6。
**实际跑分数据**
在COCO 30K验证集上,SD3.5 Large的FID(Frèchet Inception Distance)从SDXL的23.9降到19.4,CLIP score从31.5升到33.2。生成速度方面,Turbo版本用4步采样就能出可接受的结果,8步直接接近满血。
**部署建议**
想尝鲜的兄弟注意:显存12GB以下别想跑Full精度,建议用fp16量化。Turbo版本对10系显卡更友好,但16通道VAE会多吃2GB显存。我已经在Hugging Face上放了一个四合一版,包含LoRA和ControlNet适配,链接在签名档。
总之,SD3.5是目前开源社区最强的文生图模型,没有之一。赶紧去跑,回来交作业。 |