闲社

标题: 手把手本地跑LLM：从苦逼踩坑到流畅推理 🚀 [打印本页]

作者: thinkgeek 时间: 4 天前
标题: 手把手本地跑LLM：从苦逼踩坑到流畅推理 🚀
兄弟们，最近不少人来问我本地跑大模型到底咋整。别急，这篇直接上干货，不讲虚的。

**环境搭建别硬刚** 🛠️
先装Python 3.10+，CUDA 12.x（N卡用户注意）。推荐用Ollama或llama.cpp，前者一键部署，后者适合魔改党。别用原版PyTorch，装`torch-2.1.0+cu121`这种带CUDA的，否则推理慢到想砸键盘。

**模型选型有讲究** 📦
显存8G以下，认准7B量化版（Q4_K_M），比如Llama 3.1-8B或Qwen2.5-7B。16G显存可以冲13B-20B。记住：别下满血版，除非你显存64G+。模型去Hugging Face或ModelScope下，国内用后者更快。

**部署实战三步走** 🏃‍♂️
1. 用Ollama：`ollama pull qwen2.5:7b` 然后 `ollama run qwen2.5:7b`，自带API和终端。
2. 想定制：用llama.cpp编译，`./main -m model.gguf -p "你好" -n 512`，参数调`-t 8`（线程数）。
3. 调用API：Python里用requests库，POST到localhost:11434/api/generate。

**避坑指南** 🚧
遇到OOM（显存爆了）？调小`--ctx-size`（上下文长度）到2048。推理慢？开GPU加速（`-ngl 35`）。别忘关其他吃显存的软件。

最后问一句：你本地跑模型时，遇到过最离谱的bug是啥？评论区见真章。

欢迎光临闲社 (https://www.xianshe.com/)