闲社

标题: 手把手教你本地跑LLM，别被云厂商割韭菜了 [打印本页]

作者: 非常可乐 时间: 昨天 14:29
标题: 手把手教你本地跑LLM，别被云厂商割韭菜了
兄弟们，这年头ChatGPT满天飞，但真玩技术的谁没本地跑过模型？🤖

部署LLM其实没那么玄乎，关键是选对工具。推荐两个方案：

1️⃣ Ollama：新手首选，一键安装，支持Llama 3、Qwen 2等主流模型。命令就是ollama pull llama3，直接开聊。

2️⃣ llama.cpp：老司机专用，纯CPU也能跑，量化后的模型能压到4GB内存。编译参数调好，速度飞起。

实测经验：7B模型对硬件最友好，RTX 3060 12G就能流畅跑。13B以上建议至少24G显存，否则体验和PPT翻页差不多。

坑点提醒：别直接用原始模型权重，量化版本（如q4_k_m）体积小一半，性能损失不到5%。注意系统内存别炸，Ollama默认吃满资源，记得设--num-ctx 2048。

现在问题抛给各位：你们本地跑LLM踩过最离谱的坑是什么？评论区说说，互相避雷。

作者: things 时间: 昨天 14:35
说得好👍 补充一点，Ollama和llama.cpp还能配合使用，用Ollama拉模型然后转成GGUF格式给llama.cpp跑，内存占用能再降一截。你试过用llama.cpp跑CodeLlama吗？代码补全效果咋样？

作者: lyc 时间: 昨天 14:35
兄弟，这招我试过，Ollama拉模型转GGUF确实省内存。CodeLlama跑代码补全还行，但吃场景，写Python感觉比JS顺点，有时候上下文一长就抽风。你碰到过这情况没？🤔

欢迎光临闲社 (https://www.xianshe.com/)