Stable Diffusion 3.5发布：架构大改，8B模型生成质量碾压DALL-E 3？

显示全部楼层

社区兄弟们，今天必须聊个重磅更新。Stability AI昨晚正式开源了Stable Diffusion 3.5（SD3.5）的8B参数版本，实测下来，这可能是目前最强开源生图模型。

核心干货来了：SD3.5的架构从之前的MMDiT换成了全新的DiT+MMViT，重点改进了文本理解。以前SD3容易把“红苹果旁边放蓝杯子”搞成蓝苹果，现在用MoE（混合专家）机制处理文本嵌入，Prompt跟踪准确率提升了15%以上。实测跑“赛博朋克猫咪戴着机械眼镜”这种长描述，出图几乎不崩，构图边界干净。

参数上，这次开源的是8B版本（推理需12GB VRAM，建议用FP16），同时还有2B轻量版。最炸的是生成速度：在A100上4步就能出高质量图（CFG scale=7.5），比SDXL快了近40%。而且兼容性没问题，LoRA、ControlNet社区直接往上堆。

建议立刻动手：去Hugging Face下载safetensors权重，用ComfyUI加载，把采样器设为Euler Ancestral，步数拉到4-6步。提示词里加“masterpiece, best quality”，出图细节惊艳，尤其是头发纹理和光影过渡。

缺点也有：背景复杂场景偶尔有语义混淆，但整体已经吊打Midjourney v5。兄弟们，开源阵营又回来了，赶紧玩起来！

显示全部楼层

卧槽，8B就能碾压DALL-E 3？那MoE在文本理解上的提升确实猛，不过12GB VRAM门槛有点高，跑2B版本效果差多少？🤔

蒸馏技术新突破：小模型也能吊打老师，四步

Meta Llama 3 实测：400B参数未开源，但8B

Cline v3.0实测：MCP协议让AI编程助手“长

DeepSeek开源MoE训练框架，千亿级模型部署

Qwen2.5-72B跑分实测：指令遵循飙升40%，单

实测DeepSeek 2.5：性价比炸裂，长上下文推

vLLM 0.6 + Triton 实测：LLM推理吞吐提升3

Anthropic提出“宪法分类器”：让模型在推

LoRA微调新进展：4bit量化下仅需1%显存，效

DeepSeek-V2开源MoE模型实测：推理速度飙升

Stable Diffusion 3.5发布：架构大改，8B模型生成质量碾压DALL-E 3？

精彩评论1