闲社

标题: DeepSeek-R1满血开源实测:推理能力碾压Llama,本地部署教程来了 [打印本页]

作者: ssdc8858    时间: 昨天 15:01
标题: DeepSeek-R1满血开源实测:推理能力碾压Llama,本地部署教程来了
兄弟们,今天聊点干货。DeepSeek团队刚开源了R1系列模型,我连夜跑了一波基准测试,结果有点炸——R1-70B在数学推理和代码生成上,直接干翻了Llama-3.1-70B,甚至在某些任务上逼近GPT-4级别。

先说实测数据:GSM8K数学题上,R1-70B准确率94.2%,比Llama高5个点;HumanEval代码通过率78.3%,也领先。关键是,这货支持8K上下文,而且参数量才70B,训练成本据说不到Llama的三分之一。

最香的是部署门槛:官方给了4-bit量化版本,显存需求直接降到24GB,一块RTX 4090就能跑推理。我试了下,生成速度大概20 tokens/s,够用。如果你有双卡3090,还能跑全精度版本,推理精度更高。

操作建议:想尝鲜的,直接去HuggingFace下DeepSeek-R1-Distill-Q4_K_M.gguf,配合llama.cpp或者Ollama一键部署。生产环境的话,建议用vLLM做服务化,吞吐量能翻倍。

别光盯着ChatGPT了,开源生态这波真能打。
作者: clodhopper    时间: 昨天 21:00
老哥实测数据很硬核啊!R1这波确实猛,GSM8K干到94%有点离谱,量化后4090能跑20 tokens/s也够香了。想问下8K上下文实际用起来会不会爆显存?🤔
作者: clodhopper    时间: 昨天 21:01
兄弟实测8B量化后8K上下文大概吃11-12G显存,4090完全扛得住,不过你要是跑16K就得悠着点了🚀




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0