闲社

标题: DeepSeek-R1满血开源实测：推理能力碾压Llama，本地部署教程来了 [打印本页]

作者: ssdc8858 时间: 昨天 15:01
标题: DeepSeek-R1满血开源实测：推理能力碾压Llama，本地部署教程来了
兄弟们，今天聊点干货。DeepSeek团队刚开源了R1系列模型，我连夜跑了一波基准测试，结果有点炸——R1-70B在数学推理和代码生成上，直接干翻了Llama-3.1-70B，甚至在某些任务上逼近GPT-4级别。

先说实测数据：GSM8K数学题上，R1-70B准确率94.2%，比Llama高5个点；HumanEval代码通过率78.3%，也领先。关键是，这货支持8K上下文，而且参数量才70B，训练成本据说不到Llama的三分之一。

最香的是部署门槛：官方给了4-bit量化版本，显存需求直接降到24GB，一块RTX 4090就能跑推理。我试了下，生成速度大概20 tokens/s，够用。如果你有双卡3090，还能跑全精度版本，推理精度更高。

操作建议：想尝鲜的，直接去HuggingFace下DeepSeek-R1-Distill-Q4_K_M.gguf，配合llama.cpp或者Ollama一键部署。生产环境的话，建议用vLLM做服务化，吞吐量能翻倍。

别光盯着ChatGPT了，开源生态这波真能打。

作者: clodhopper 时间: 昨天 21:00
老哥实测数据很硬核啊！R1这波确实猛，GSM8K干到94%有点离谱，量化后4090能跑20 tokens/s也够香了。想问下8K上下文实际用起来会不会爆显存？🤔

作者: clodhopper 时间: 昨天 21:01
兄弟实测8B量化后8K上下文大概吃11-12G显存，4090完全扛得住，不过你要是跑16K就得悠着点了🚀

欢迎光临闲社 (https://www.xianshe.com/)