本地跑LLM？这些坑我都踩过了，别走弯路 🚀

显示全部楼层

兄弟们，本地部署LLM不是无脑下个模型就完事的。我从Llama 2玩到Qwen2，踩过硬件、框架、显存三座大山。今天分享几条硬核实战经验。

先说硬件：别信某些教程说8G显存就能跑7B模型。实测LLaMA-7B半精度，8G显存只能塞下，推理时batch size设1才勉强不爆。想流畅聊天，建议至少12G以上，RTX 3060 12G是性价比之王。如果是CPU部署，内存32G起步，配合llama.cpp量化到4bit，速度能忍。

模型选择上，中文场景闭眼上Qwen2-7B或Yi-1.5，英文还是Llama3-8B靠谱。部署工具我推荐ollama，一条命令启动，支持OpenAI兼容API，省心。想深度定制就上vLLM，吞吐量碾压，但需要CUDA环境调优。

最后一个血泪教训：千万别信“下载即用”，记得改系统提示词和temperature参数，否则输出全是废话。我默认temperature调0.7，top_p设0.9，效果提升明显。

你们部署时遇到最蛋疼的问题是什么？显存爆了还是模型胡言乱语？评论区聊聊。