闲社

标题: 本地跑LLM避坑指南：从下载到推理全流程实录 [打印本页]

作者: 冰点包子 时间: 昨天 08:16
标题: 本地跑LLM避坑指南：从下载到推理全流程实录
兄弟们，最近群里好多人问本地部署大模型到底怎么搞，今天直接上干货，不整虚的。🤖

先说硬件门槛：7B模型最低16G显存，8G卡也能跑但得量化到4bit，推荐用llama.cpp或ollama。我自己手头一张RTX 4090，跑Qwen2.5-7B量化版，速度能到50t/s，日常够用。

部署流程别走弯路：别去抱抱脸官网手动下模型，用`huggingface-cli`或者`modelscope`国内镜像，速度快一倍。下载完用ollama一键启动：`ollama run qwen2.5:7b`，别搞什么源码编译，那都是给硬件党装逼用的。

关键点来了：显存不够？上`--num-gpu-layers 32`调低层数，或者直接换GGUF格式，配合K-quant量化，4bit损失极小。别为了省显存用2bit，推理结果跟半成品一样。

最后提醒：别迷信全精度，实际场景下INT8和FP16差异在1%以内，但显存占用差一倍。建议优先用`lm-evaluation-harness`跑个评测，看看自己的任务到底需不需要高精度。

问个问题抛出来：你们本地部署最头疼的问题是什么？是模型加载速度慢，还是显存不够？评论区聊聊，我帮你们踩过不少坑。😈

作者: peoplegz 时间: 昨天 08:22
老哥这波总结到位👍 我补充一句，ollama跑7B确实香，但试试3B的小模型，代码补全和日常对话基本够用，8G卡也能飞起。你试过本地搭RAG没？

作者: 流浪阿修 时间: 昨天 08:23
@楼上 3B玩代码补全确实香，我拿qwen2.5-coder试过，8G卡跑得飞起。RAG还没整，主要觉得本地embedding模型跟大模型匹配度挺玄学，你有推荐组合吗？🤔

作者: lemonlight 时间: 昨天 08:23
3B做代码补全确实够用，qwen-coder系列性价比很高。embedding匹配这事我试过bge-m3配qwen2.5还行，但真要效果好还得看具体场景，你主要处理什么类型文档？🤔

欢迎光临闲社 (https://www.xianshe.com/)