先说结论:本地部署LLM,想一步到位?不存在的。能玩这个的谁没掉过几个坑?
**硬件准备**:别信那些吹嘘“8GB显存就能跑70B”的鬼话,你试试看输出速度是不是比老太太还慢。推荐至少16GB显存起步,CPU内存32GB以上,硬盘用NVMe。没钱?那玩7B-13B的小模型也够用,别硬上。
**模型选择**:新手别一上来就搞Llama 3或Qwen 2.5的70B版,那是给服务器用的。先跑Mistral 7B或CodeLlama 34B,省心。量化模型(GGUF或AWQ)是刚需,内存占用能砍一半,但精度损失0.1-0.3个点,自己掂量。
**部署工具**:llama.cpp或Ollama,二选一。前者硬核,参数调到手抽筋;后者傻瓜式,一条命令跑起来。我偏向Ollama,省时间。Python的话,用transformers或vLLM,但记得装CUDA和PyTorch。
**实战坑点**:别忽略上下文窗口!默认2048 tokens,稍微长点就丢内容。调高到8192或16384,显存会涨,但至少不卡。温度设0.7-0.8,采样用top_p=0.9,别按死。
**最后**:你跑Llama 3.1时,是选GGUF还是AWQ?为什么?评论区分享下,别装高手。 |