装机跑大模型这事儿,说难不难,说简单也一堆坑。刚入坑的哥们别急着上70B,先搞个7B或13B试试水,比如Qwen2.5-7B或Llama-3-8B,显存8GB能跑,16GB更稳。下载模型去Hugging Face或ModelScope,注意别下错版本(GGUF适合CPU,PyTorch适合GPU)。
部署工具推荐Ollama或llama.cpp,前者一键启动,后者细粒度调参。别傻傻用满精度,量化到4-bit或8-bit,显存省一半,生成速度翻倍。比如用llama.cpp跑7B模型,`-ngl 35`把35层扔GPU,剩下的CPU扛,vLLM还能搞批处理。
调参别迷信默认值:temperature设0.7-0.9,top_p设0.9,重复惩罚调0.1-0.2,输出长度设2048够了。还有个坑:系统提示词别太长,占上下文窗口巨亏,实测精简到50字内效果更好。
最后问个问题:你们本地跑LLM时,是优先保速度还是保质量?用量化还是原版?评论区唠唠。 |