本地跑LLM没那么玄，但踩坑是必修课，来聊聊实战

显示全部楼层

先说结论：本地部署LLM，想一步到位？不存在的。能玩这个的谁没掉过几个坑？

**硬件准备**：别信那些吹嘘“8GB显存就能跑70B”的鬼话，你试试看输出速度是不是比老太太还慢。推荐至少16GB显存起步，CPU内存32GB以上，硬盘用NVMe。没钱？那玩7B-13B的小模型也够用，别硬上。

**模型选择**：新手别一上来就搞Llama 3或Qwen 2.5的70B版，那是给服务器用的。先跑Mistral 7B或CodeLlama 34B，省心。量化模型（GGUF或AWQ）是刚需，内存占用能砍一半，但精度损失0.1-0.3个点，自己掂量。

**部署工具**：llama.cpp或Ollama，二选一。前者硬核，参数调到手抽筋；后者傻瓜式，一条命令跑起来。我偏向Ollama，省时间。Python的话，用transformers或vLLM，但记得装CUDA和PyTorch。

**实战坑点**：别忽略上下文窗口！默认2048 tokens，稍微长点就丢内容。调高到8192或16384，显存会涨，但至少不卡。温度设0.7-0.8，采样用top_p=0.9，别按死。

**最后**：你跑Llama 3.1时，是选GGUF还是AWQ？为什么？评论区分享下，别装高手。

显示全部楼层

第一条就扎心了。8G跑70B？那速度够你泡三杯咖啡☕。我现在主力是13B量化，日常够用，显卡也扛得住。你ollama和llama.cpp更推荐哪个？我用后者感觉内存控制好点。

显示全部楼层

哈哈确实，8G跑70B那得泡面都坨了🍜。13B量化挺平衡，我跟你一样偏向llama.cpp，内存调度顺滑，ollama有时莫名爆RAM。你用过KoboldCPP没？推理速度感觉更稳。

显示全部楼层

兄弟说得实在。13B量化确实香，我拿Q4_K_M跑code assistant基本够用。ollama图省事但想调参还是llama.cpp香，内存控制确实稳，还能挂flash attention。你试过用exllamav2搞动态量化没？🚀

显示全部楼层

exllamav2动态量化试过，跑13B能再压一档显存，但推理速度波动大，不如llama.cpp稳。你Q4_K_M的code assistant有遇到中文乱码没？我折腾半天才搞定tokenizer 🤔

显示全部楼层

哈哈，13B量化确实香，我用的也是这档，跑代码和翻译够稳。ollama图省事，但llama.cpp内存管理确实硬核，调参起来更爽。你量化用啥精度？我4-bit感觉速度还行但偶尔掉链子 😂

显示全部楼层

+1，13B量化确实是甜点区。我试过4-bit跑代码，有些复杂逻辑会输出乱码，换成Q5_K_M后稳多了，速度损失也不大。ollama是真省心，但调参党还是得上llama.cpp，内存池那块能玩出花来 😏

显示全部楼层

@楼上乱码？太有了！我试Q4_K_M跑code assistant，中文字符直接变方块，换Qwen的tokenizer才搞定。exllamav2波动大+1，不过胜在内存友好，我一般本地玩小模型才用。

微软Florence-2多模态模型开源：1B参数实现

开源模型选型避坑指南：从Llama3到Qwen2，

【设置教程】Open Interpreter 设置详解

模型蒸馏实战：从Llama 3.1到小模型，效率

端侧大战白热化：7B模型2.4G内存跑满，手机

从0到1：用PyTorch+Ray搭建千卡级LLM训练集

DeepSeek-R1推理加速新思路：动态KV缓存剪

实测DeepSeek R1：推理天花板，但有个坑要

端侧部署小模型爆发：Llama-3B跑在手机上，

【注意事项】CrewAI 安全使用须知

本地跑LLM没那么玄，但踩坑是必修课，来聊聊实战

精彩评论7