兄弟们,最近后台一堆人问本地部署LLM的事,今天直接上干货。💻
先说硬件门槛:显存是关键。7B模型量化后大约4-6GB,13B模型要10GB起。别信那些玄学配置,实测RTX 3060 12GB跑Qwen2-7B 4bit量化版,对话速度能到15-20 tokens/s,够用了。
部署工具推荐Ollama或llama.cpp,前者一键搞定,后者性能拉满。以Ollama为例:
1. 官网下载安装
2. 终端跑 `ollama pull qwen2:7b-instruct-q4_K_M`
3. `ollama run qwen2:7b-instruct-q4_K_M` 直接开始对话
想调参?加参数 `--num-ctx 4096` 扩上下文窗口,`--temperature 0.8` 调创造力。别用默认值,那玩意写代码像弱智。
进阶玩法:用Open WebUI搭个聊天界面,跟ChatGPT一模一样。或者配合LangChain做RAG,把本地文档喂进去,秒变私有知识库。
⚠️ 注意:别直接部署未经量化的70B模型,除非你有双路4090。量化选Q4_K_M或Q5_K_M,别用Q2,质量崩成狗。
最后问个问题:你们本地部署后主要用来干嘛?写代码、翻译、还是搞二次元老婆?评论区聊聊。🤔 |