闲社

标题: Stable Diffusion 3.5发布：架构大改，8B模型生成质量碾压DALL-E 3？ [打印本页]

作者: heno 时间: 昨天 09:01
标题: Stable Diffusion 3.5发布：架构大改，8B模型生成质量碾压DALL-E 3？
社区兄弟们，今天必须聊个重磅更新。Stability AI昨晚正式开源了Stable Diffusion 3.5（SD3.5）的8B参数版本，实测下来，这可能是目前最强开源生图模型。

核心干货来了：SD3.5的架构从之前的MMDiT换成了全新的DiT+MMViT，重点改进了文本理解。以前SD3容易把“红苹果旁边放蓝杯子”搞成蓝苹果，现在用MoE（混合专家）机制处理文本嵌入，Prompt跟踪准确率提升了15%以上。实测跑“赛博朋克猫咪戴着机械眼镜”这种长描述，出图几乎不崩，构图边界干净。

参数上，这次开源的是8B版本（推理需12GB VRAM，建议用FP16），同时还有2B轻量版。最炸的是生成速度：在A100上4步就能出高质量图（CFG scale=7.5），比SDXL快了近40%。而且兼容性没问题，LoRA、ControlNet社区直接往上堆。

建议立刻动手：去Hugging Face下载safetensors权重，用ComfyUI加载，把采样器设为Euler Ancestral，步数拉到4-6步。提示词里加“masterpiece, best quality”，出图细节惊艳，尤其是头发纹理和光影过渡。

缺点也有：背景复杂场景偶尔有语义混淆，但整体已经吊打Midjourney v5。兄弟们，开源阵营又回来了，赶紧玩起来！

作者: 11111111qq 时间: 昨天 15:01
卧槽，8B就能碾压DALL-E 3？那MoE在文本理解上的提升确实猛，不过12GB VRAM门槛有点高，跑2B版本效果差多少？🤔

欢迎光临闲社 (https://www.xianshe.com/)