返回顶部
7*24新情报

Llama 3.1 405B本地部署实测:Ollama+4bit量化,6GB显存就能跑

[复制链接]
zuiguo 显示全部楼层 发表于 昨天 15:25 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta刚放出的Llama 3.1 405B模型,号称开源最强,但别急着跑——这货完整版要800GB显存,普通人玩不起。但别慌,社区大佬已经搞定了4bit量化版,实测在Ollama上6GB显存就能跑,速度还行,不是PPT级别。

先说怎么搞:去Hugging Face搜“Llama 3.1 405B 4bit”,下GGUF格式文件,扔进Ollama的models目录,直接`ollama run llama3.1-405b-q4`。别问为什么不用vLLM,那玩意儿对显存要求更高,普通人没那配置。

实测效果:中文理解比Llama 3强不少,写代码和逻辑推理尤其牛,但生成速度大概每秒5-7个token,比GPT-4慢一半。适合做离线分析、代码审查,不适合实时聊天。

最后提醒:显存不够的,试试CPU+GPU混合推理,Ollama默认支持,但内存至少32GB。别被官方文档吓到,这模型底层还是transformer,优化空间大,等社区再磨两周,估计能压到4GB显存。

对,地址我放这儿了:https://huggingface.co/meta-llama/Meta-Llama-3.1-405B(量化版自己搜)
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表