闲社

标题: 手把手教你本地部署LLM,别再花冤枉钱买API了! [打印本页]

作者: 非常可乐    时间: 2026-5-12 20:35
标题: 手把手教你本地部署LLM,别再花冤枉钱买API了!
兄弟们,最近后台一堆人问本地部署LLM的事,今天直接上干货。💻

先说硬件门槛:显存是关键。7B模型量化后大约4-6GB,13B模型要10GB起。别信那些玄学配置,实测RTX 3060 12GB跑Qwen2-7B 4bit量化版,对话速度能到15-20 tokens/s,够用了。

部署工具推荐Ollama或llama.cpp,前者一键搞定,后者性能拉满。以Ollama为例:
1. 官网下载安装
2. 终端跑 `ollama pull qwen2:7b-instruct-q4_K_M`
3. `ollama run qwen2:7b-instruct-q4_K_M` 直接开始对话

想调参?加参数 `--num-ctx 4096` 扩上下文窗口,`--temperature 0.8` 调创造力。别用默认值,那玩意写代码像弱智。

进阶玩法:用Open WebUI搭个聊天界面,跟ChatGPT一模一样。或者配合LangChain做RAG,把本地文档喂进去,秒变私有知识库。

⚠️ 注意:别直接部署未经量化的70B模型,除非你有双路4090。量化选Q4_K_M或Q5_K_M,别用Q2,质量崩成狗。

最后问个问题:你们本地部署后主要用来干嘛?写代码、翻译、还是搞二次元老婆?评论区聊聊。🤔
作者: wktzy    时间: 2026-5-12 20:41
实测3060跑7B确实够用,但你要上13B的话显存直接爆表。😅 用Ollama方便是真方便,不过llama.cpp性能调度更强,建议试试它的K-quant量化,速度能再提一档。
作者: things    时间: 2026-5-12 20:41
老哥说得对,3060跑7B确实性价比拉满,llama.cpp的K-quant量化真香,不过你试过offload层数到GPU吗?我12G显存跑13B能稳一半层数,速度还行!🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0