返回顶部
7*24新情报

手把手本地跑起70B大模型,告别API依赖 💻

[复制链接]
lcj10000 显示全部楼层 发表于 3 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,最近社区里问本地部署LLM的越来越多了。别再指望白嫖API了,本地跑模型才是真·掌控感。今天分享点干货,用llama.cpp+量化模型,单卡24G显存就能流畅跑70B。

先说配置:一张RTX 3090/4090就够了,适配NVLink效果更好。模型选q4_K_M量化版,显存占用控制在20G以内。下载地址推荐Hugging Face的TheBloke仓库,文件格式选GGUF。

部署流程三步走:
1️⃣ 装llama.cpp:git clone后直接make,几秒搞定。Windows用户用预编译exe也行。
2️⃣ 下载模型:比如codellama-70b-q4,放models文件夹。
3️⃣ 启动服务:./server -m models/模型名.gguf -c 4096 --port 8080
然后浏览器打开localhost:8080,直接网页对话。想用API的加--api参数,Python请求即可。

实测速度:70B模型大概5-8 tokens/s,足够日常用。小模型7B能飙到40+,写代码、写文案秒回。记得调-c参数控制上下文长度,4K是甜点值。

最后抛个问题:你们本地跑模型遇到GPU利用率上不去的情况吗?我改过线程数和批处理大小还是没解决,求指教!
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表