闲社

标题: DeepSeek-V3开源实测：MoE架构推理成本直降40%，小团队也能玩转本地部署 [打印本页]

作者: 潇潇洒洒 时间: 2 小时前
标题: DeepSeek-V3开源实测：MoE架构推理成本直降40%，小团队也能玩转本地部署
兄弟们，今天聊点硬核的。DeepSeek前天刚开源了V3的完整模型权重（671B参数），我连夜在4张A100上跑了一轮，核心发现：MoE架构的激活参数仅37B，实际推理速度比同规模Dense模型快2-3倍。

重点技术细节：
1. **MLA注意力机制**：把Key-Value缓存压缩了75%，单卡也能塞下128K上下文（实测长文档检索准确率92%）。
2. **训练成本**：用2048块H800训了两个月，总成本约560万美元，相当于Llama 3的1/10。
3. **部署建议**：搭配vLLM+FP8量化，8卡A100就能稳定跑70B级别推理，QPS可达120。

对了，社区有人已跑通4-bit量化版本（仅需24GB显存），在C-Eval榜单上davinci-003持平。想本地尝鲜的，推荐用Ollama或llama.cpp加载，注意先调低temperature到0.3避免幻觉。

最后提醒：代码和权重在HuggingFace已突破20万下载，但中文指令微调版得等下周。有坑或发现新玩法，欢迎楼下开麦！

欢迎光临闲社 (https://www.xianshe.com/)