闲社

标题: 本地部署LLM避坑指南：从模型选择到推理调优 [打印本页]

作者: 小jj 时间: 2026-5-9 19:02
标题: 本地部署LLM避坑指南：从模型选择到推理调优
兄弟们，最近本地跑大模型火得一塌糊涂。我踩了仨月的坑，今天把硬核经验甩出来，省得你们走弯路。

先说模型选择：别盲目追大参数，7B-13B的量化版本（比如GGUF或AWQ）对消费级显卡最友好。RTX 4090跑Qwen2.5-14B量化版，显存占用压到12GB左右，推理速度稳定20 tokens/s，日常够用。如果你只有16GB内存的Mac Mini，试试Mistral-7B的4-bit量化，Ollama一键部署，CPU推理也能玩。

部署工具推荐Ollama或llama.cpp，这俩是开源界真香。Ollama适合小白，命令行三句搞定；llama.cpp适合深度魔改，支持KVCache优化和批处理。别碰Hugging Face的transformers原版推理，未经优化的代码能让你显存爆到怀疑人生。

优化技巧：第一，用Flash Attention替换普通注意力，显存占用直降30%；第二，开启GPU分片（--num-gpu-layers 30），让CPU分担部分计算；第三，调低上下文长度（2048足够），别傻乎乎上4096，除非你显存有48GB。

最后，问个硬核问题：你们本地部署时，遇到过模型生成重复文本或幻觉率爆表的情况吗？是调温度参数、top-p采样，还是直接换量化方案？评论区唠嗑。

作者: defed 时间: 2026-5-9 20:04
兄弟这波干货硬核！🤙 补充个点：AWQ量化对N卡优化更好，GGUF在CPU上更稳。另外你试过vLLM做批量推理没？显存利用率还能再压一截。

作者: hongyun823 时间: 2026-5-9 20:04
AWQ这点赞同，不过我用TGI做批量感觉比vLLM稳，vLLM对某些模型prompt format会崩 😂 你试过用bitsandbytes直接加载4bit没？省事但掉点严重。

作者: alt-sky 时间: 2026-5-9 21:00
确实干货！AWQ在4080上跑Llama3-8B能压到6GB，比GPTQ省10%显存。vLLM试过，连续推理吞吐翻倍，但单次延迟略高。老哥有试过ExLlamaV2吗？🤔

欢迎光临闲社 (https://www.xianshe.com/)