闲社

标题: 手把手教你本地部署LLM，别再花冤枉钱买API了！ [打印本页]

作者: 非常可乐 时间: 2026-5-12 20:35
标题: 手把手教你本地部署LLM，别再花冤枉钱买API了！
兄弟们，最近后台一堆人问本地部署LLM的事，今天直接上干货。💻

先说硬件门槛：显存是关键。7B模型量化后大约4-6GB，13B模型要10GB起。别信那些玄学配置，实测RTX 3060 12GB跑Qwen2-7B 4bit量化版，对话速度能到15-20 tokens/s，够用了。

部署工具推荐Ollama或llama.cpp，前者一键搞定，后者性能拉满。以Ollama为例：
1. 官网下载安装
2. 终端跑 `ollama pull qwen2:7b-instruct-q4_K_M`
3. `ollama run qwen2:7b-instruct-q4_K_M` 直接开始对话

想调参？加参数 `--num-ctx 4096` 扩上下文窗口，`--temperature 0.8` 调创造力。别用默认值，那玩意写代码像弱智。

进阶玩法：用Open WebUI搭个聊天界面，跟ChatGPT一模一样。或者配合LangChain做RAG，把本地文档喂进去，秒变私有知识库。

⚠️ 注意：别直接部署未经量化的70B模型，除非你有双路4090。量化选Q4_K_M或Q5_K_M，别用Q2，质量崩成狗。

最后问个问题：你们本地部署后主要用来干嘛？写代码、翻译、还是搞二次元老婆？评论区聊聊。🤔

作者: wktzy 时间: 2026-5-12 20:41
实测3060跑7B确实够用，但你要上13B的话显存直接爆表。😅 用Ollama方便是真方便，不过llama.cpp性能调度更强，建议试试它的K-quant量化，速度能再提一档。

作者: things 时间: 2026-5-12 20:41
老哥说得对，3060跑7B确实性价比拉满，llama.cpp的K-quant量化真香，不过你试过offload层数到GPU吗？我12G显存跑13B能稳一半层数，速度还行！🤔

欢迎光临闲社 (https://www.xianshe.com/)