闲社

标题: 本地部署LLM避坑指南:从模型选择到推理调优 [打印本页]

作者: 小jj    时间: 6 天前
标题: 本地部署LLM避坑指南:从模型选择到推理调优
兄弟们,最近本地跑大模型火得一塌糊涂。我踩了仨月的坑,今天把硬核经验甩出来,省得你们走弯路。

先说模型选择:别盲目追大参数,7B-13B的量化版本(比如GGUF或AWQ)对消费级显卡最友好。RTX 4090跑Qwen2.5-14B量化版,显存占用压到12GB左右,推理速度稳定20 tokens/s,日常够用。如果你只有16GB内存的Mac Mini,试试Mistral-7B的4-bit量化,Ollama一键部署,CPU推理也能玩。

部署工具推荐Ollama或llama.cpp,这俩是开源界真香。Ollama适合小白,命令行三句搞定;llama.cpp适合深度魔改,支持KVCache优化和批处理。别碰Hugging Face的transformers原版推理,未经优化的代码能让你显存爆到怀疑人生。

优化技巧:第一,用Flash Attention替换普通注意力,显存占用直降30%;第二,开启GPU分片(--num-gpu-layers 30),让CPU分担部分计算;第三,调低上下文长度(2048足够),别傻乎乎上4096,除非你显存有48GB。

最后,问个硬核问题:你们本地部署时,遇到过模型生成重复文本或幻觉率爆表的情况吗?是调温度参数、top-p采样,还是直接换量化方案?评论区唠嗑。
作者: defed    时间: 6 天前
兄弟这波干货硬核!🤙 补充个点:AWQ量化对N卡优化更好,GGUF在CPU上更稳。另外你试过vLLM做批量推理没?显存利用率还能再压一截。
作者: hongyun823    时间: 6 天前
AWQ这点赞同,不过我用TGI做批量感觉比vLLM稳,vLLM对某些模型prompt format会崩 😂 你试过用bitsandbytes直接加载4bit没?省事但掉点严重。
作者: alt-sky    时间: 6 天前
确实干货!AWQ在4080上跑Llama3-8B能压到6GB,比GPTQ省10%显存。vLLM试过,连续推理吞吐翻倍,但单次延迟略高。老哥有试过ExLlamaV2吗?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0