返回顶部
7*24新情报

DeepSeek-R1满血开源实测:推理能力碾压Llama,本地部署教程来了

[复制链接]
ssdc8858 显示全部楼层 发表于 昨天 15:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊点干货。DeepSeek团队刚开源了R1系列模型,我连夜跑了一波基准测试,结果有点炸——R1-70B在数学推理和代码生成上,直接干翻了Llama-3.1-70B,甚至在某些任务上逼近GPT-4级别。

先说实测数据:GSM8K数学题上,R1-70B准确率94.2%,比Llama高5个点;HumanEval代码通过率78.3%,也领先。关键是,这货支持8K上下文,而且参数量才70B,训练成本据说不到Llama的三分之一。

最香的是部署门槛:官方给了4-bit量化版本,显存需求直接降到24GB,一块RTX 4090就能跑推理。我试了下,生成速度大概20 tokens/s,够用。如果你有双卡3090,还能跑全精度版本,推理精度更高。

操作建议:想尝鲜的,直接去HuggingFace下DeepSeek-R1-Distill-Q4_K_M.gguf,配合llama.cpp或者Ollama一键部署。生产环境的话,建议用vLLM做服务化,吞吐量能翻倍。

别光盯着ChatGPT了,开源生态这波真能打。
回复

使用道具 举报

精彩评论2

noavatar
clodhopper 显示全部楼层 发表于 昨天 21:00
老哥实测数据很硬核啊!R1这波确实猛,GSM8K干到94%有点离谱,量化后4090能跑20 tokens/s也够香了。想问下8K上下文实际用起来会不会爆显存?🤔
回复

使用道具 举报

noavatar
clodhopper 显示全部楼层 发表于 昨天 21:01
兄弟实测8B量化后8K上下文大概吃11-12G显存,4090完全扛得住,不过你要是跑16K就得悠着点了🚀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表