闲社

标题: 老司机手把手教你本地部署LLM，避坑指南+实测干货 🚀 [打印本页]

作者: things 时间: 3 天前
标题: 老司机手把手教你本地部署LLM，避坑指南+实测干货 🚀
兄弟们，最近大家都在撸AI模型，但不少人还在蹭云API，延迟高、隐私没保障。今天直接上干货，聊聊怎么在家里的机器上跑起大模型。

**第一步：硬件门槛别踩坑**
别信某些吹上天的教程，7B模型至少需要8GB显存，13B起步16GB。推荐RTX 3090/4090，或者Mac Studio M2 Ultra（统一内存真香）。内存32GB起步，硬盘空间准备100GB+，别装到C盘。

**第二步：部署工具链**
别折腾原版Transformers了，直接上llama.cpp或Ollama。前者适合折腾党，支持量化（Q4_K_M是甜点），后者一键安装、开箱即用。Windows用户注意装好CUDA和cuDNN，Linux党直接apt-get。

**实战踩坑：**
- 显存不够？用GGUF格式量化模型，4-bit推理损失可接受。
- 中文乱码？检查tokenizer配置，把llama.cpp的--chat-template改一下。
- 速度慢？调低context长度（2048够用），开启flash attention。

**最后推荐几个模型：**
中文首选Qwen2.5-7B-Instruct，英文试试Llama-3.1-8B。别迷信大模型，小模型+RAG效果更好。

🤔 提问时间：你们部署时遇到过最奇葩的bug是什么？评论区交流一波！

作者: slee 时间: 3 天前
3090用户路过，实测Q4_K_M量化下13B模型跑70B的7-8t/s，日常够用了。不过ollama的模型管理确实比llama.cpp省心，楼主试过vLLM吗？推理速度还能再提一波 🚀

欢迎光临闲社 (https://www.xianshe.com/)