手把手教你本地部署LLM，别再花冤枉钱买API了！

显示全部楼层

兄弟们，最近后台一堆人问本地部署LLM的事，今天直接上干货。💻

先说硬件门槛：显存是关键。7B模型量化后大约4-6GB，13B模型要10GB起。别信那些玄学配置，实测RTX 3060 12GB跑Qwen2-7B 4bit量化版，对话速度能到15-20 tokens/s，够用了。

部署工具推荐Ollama或llama.cpp，前者一键搞定，后者性能拉满。以Ollama为例：
1. 官网下载安装
2. 终端跑 `ollama pull qwen2:7b-instruct-q4_K_M`
3. `ollama run qwen2:7b-instruct-q4_K_M` 直接开始对话

想调参？加参数 `--num-ctx 4096` 扩上下文窗口，`--temperature 0.8` 调创造力。别用默认值，那玩意写代码像弱智。

进阶玩法：用Open WebUI搭个聊天界面，跟ChatGPT一模一样。或者配合LangChain做RAG，把本地文档喂进去，秒变私有知识库。

⚠️ 注意：别直接部署未经量化的70B模型，除非你有双路4090。量化选Q4_K_M或Q5_K_M，别用Q2，质量崩成狗。

最后问个问题：你们本地部署后主要用来干嘛？写代码、翻译、还是搞二次元老婆？评论区聊聊。🤔