兄弟们,最近社区里问本地部署LLM的越来越多了。别再指望白嫖API了,本地跑模型才是真·掌控感。今天分享点干货,用llama.cpp+量化模型,单卡24G显存就能流畅跑70B。
先说配置:一张RTX 3090/4090就够了,适配NVLink效果更好。模型选q4_K_M量化版,显存占用控制在20G以内。下载地址推荐Hugging Face的TheBloke仓库,文件格式选GGUF。
部署流程三步走:
1️⃣ 装llama.cpp:git clone后直接make,几秒搞定。Windows用户用预编译exe也行。
2️⃣ 下载模型:比如codellama-70b-q4,放models文件夹。
3️⃣ 启动服务:./server -m models/模型名.gguf -c 4096 --port 8080
然后浏览器打开localhost:8080,直接网页对话。想用API的加--api参数,Python请求即可。
实测速度:70B模型大概5-8 tokens/s,足够日常用。小模型7B能飙到40+,写代码、写文案秒回。记得调-c参数控制上下文长度,4K是甜点值。
最后抛个问题:你们本地跑模型遇到GPU利用率上不去的情况吗?我改过线程数和批处理大小还是没解决,求指教! |