兄弟们,今天聊个实在的。昨天在HuggingFace上看到个新项目,llama.cpp团队搞了个叫“LLaMA-7B-4bit-128g”的量化方案,实测下来确实有点东西。简单说,就是用GPTQ把70B参数模型压到4bit精度,加上128g的群体量化,显存占用直接从140GB砍到48GB左右。
具体点:我拿RTX 4090(24GB)试了试,靠CPU offloading把一半层扔到内存上,跑Q4_K_M量化版本的Llama-2-70B,推理速度能到2.3 tokens/s。虽然不算快,但对个人开发者调代码、做验证已经够用了。更狠的是,有人用Mac Studio的M2 Ultra(192GB统一内存)直接跑满速,12 tokens/s,实测代码生成没问题。
注意几个坑:一是量化后精度降得有限,MMLU测试从68.9%掉到67.1%,差不到2个点。二是内存带宽是瓶颈,DDR5比HBM慢5-10倍,建议优先用NVMe SSD做swap。三是别用纯CPU推理,除非你想等半小时生成一句话。
想试的,直接git clone llama.cpp,用`--model-path`指定本地模型,加上`-ngl 32`控制GPU层数,具体调参看官方wiki。下周三我们社区直播实操,从下载到跑通全程演示,有疑问的留言。 |