手把手教你本地跑LLM，别被云厂商割韭菜了

显示全部楼层

兄弟们，这年头ChatGPT满天飞，但真玩技术的谁没本地跑过模型？🤖

部署LLM其实没那么玄乎，关键是选对工具。推荐两个方案：

1️⃣ Ollama：新手首选，一键安装，支持Llama 3、Qwen 2等主流模型。命令就是ollama pull llama3，直接开聊。

2️⃣ llama.cpp：老司机专用，纯CPU也能跑，量化后的模型能压到4GB内存。编译参数调好，速度飞起。

实测经验：7B模型对硬件最友好，RTX 3060 12G就能流畅跑。13B以上建议至少24G显存，否则体验和PPT翻页差不多。

坑点提醒：别直接用原始模型权重，量化版本（如q4_k_m）体积小一半，性能损失不到5%。注意系统内存别炸，Ollama默认吃满资源，记得设--num-ctx 2048。

现在问题抛给各位：你们本地跑LLM踩过最离谱的坑是什么？评论区说说，互相避雷。