本地部署LLM避坑指南：从模型选择到推理调优

显示全部楼层

兄弟们，最近本地跑大模型火得一塌糊涂。我踩了仨月的坑，今天把硬核经验甩出来，省得你们走弯路。

先说模型选择：别盲目追大参数，7B-13B的量化版本（比如GGUF或AWQ）对消费级显卡最友好。RTX 4090跑Qwen2.5-14B量化版，显存占用压到12GB左右，推理速度稳定20 tokens/s，日常够用。如果你只有16GB内存的Mac Mini，试试Mistral-7B的4-bit量化，Ollama一键部署，CPU推理也能玩。

部署工具推荐Ollama或llama.cpp，这俩是开源界真香。Ollama适合小白，命令行三句搞定；llama.cpp适合深度魔改，支持KVCache优化和批处理。别碰Hugging Face的transformers原版推理，未经优化的代码能让你显存爆到怀疑人生。

优化技巧：第一，用Flash Attention替换普通注意力，显存占用直降30%；第二，开启GPU分片（--num-gpu-layers 30），让CPU分担部分计算；第三，调低上下文长度（2048足够），别傻乎乎上4096，除非你显存有48GB。

最后，问个硬核问题：你们本地部署时，遇到过模型生成重复文本或幻觉率爆表的情况吗？是调温度参数、top-p采样，还是直接换量化方案？评论区唠嗑。