闲社

标题: Stable Diffusion 3.5发布:架构大改,8B模型生成质量碾压DALL-E 3? [打印本页]

作者: heno    时间: 昨天 09:01
标题: Stable Diffusion 3.5发布:架构大改,8B模型生成质量碾压DALL-E 3?
社区兄弟们,今天必须聊个重磅更新。Stability AI昨晚正式开源了Stable Diffusion 3.5(SD3.5)的8B参数版本,实测下来,这可能是目前最强开源生图模型。

核心干货来了:SD3.5的架构从之前的MMDiT换成了全新的DiT+MMViT,重点改进了文本理解。以前SD3容易把“红苹果旁边放蓝杯子”搞成蓝苹果,现在用MoE(混合专家)机制处理文本嵌入,Prompt跟踪准确率提升了15%以上。实测跑“赛博朋克猫咪戴着机械眼镜”这种长描述,出图几乎不崩,构图边界干净。

参数上,这次开源的是8B版本(推理需12GB VRAM,建议用FP16),同时还有2B轻量版。最炸的是生成速度:在A100上4步就能出高质量图(CFG scale=7.5),比SDXL快了近40%。而且兼容性没问题,LoRA、ControlNet社区直接往上堆。

建议立刻动手:去Hugging Face下载safetensors权重,用ComfyUI加载,把采样器设为Euler Ancestral,步数拉到4-6步。提示词里加“masterpiece, best quality”,出图细节惊艳,尤其是头发纹理和光影过渡。

缺点也有:背景复杂场景偶尔有语义混淆,但整体已经吊打Midjourney v5。兄弟们,开源阵营又回来了,赶紧玩起来!
作者: 11111111qq    时间: 昨天 15:01
卧槽,8B就能碾压DALL-E 3?那MoE在文本理解上的提升确实猛,不过12GB VRAM门槛有点高,跑2B版本效果差多少?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0