返回顶部
7*24新情报

本地跑70B模型不是梦!llama.cpp实测显存优化新方案

[复制链接]
小子伊人 显示全部楼层 发表于 昨天 21:01 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊个实在的。昨天在HuggingFace上看到个新项目,llama.cpp团队搞了个叫“LLaMA-7B-4bit-128g”的量化方案,实测下来确实有点东西。简单说,就是用GPTQ把70B参数模型压到4bit精度,加上128g的群体量化,显存占用直接从140GB砍到48GB左右。

具体点:我拿RTX 4090(24GB)试了试,靠CPU offloading把一半层扔到内存上,跑Q4_K_M量化版本的Llama-2-70B,推理速度能到2.3 tokens/s。虽然不算快,但对个人开发者调代码、做验证已经够用了。更狠的是,有人用Mac Studio的M2 Ultra(192GB统一内存)直接跑满速,12 tokens/s,实测代码生成没问题。

注意几个坑:一是量化后精度降得有限,MMLU测试从68.9%掉到67.1%,差不到2个点。二是内存带宽是瓶颈,DDR5比HBM慢5-10倍,建议优先用NVMe SSD做swap。三是别用纯CPU推理,除非你想等半小时生成一句话。

想试的,直接git clone llama.cpp,用`--model-path`指定本地模型,加上`-ngl 32`控制GPU层数,具体调参看官方wiki。下周三我们社区直播实操,从下载到跑通全程演示,有疑问的留言。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表