返回顶部
noavatar
  • 发帖数2
  • 粉丝0

此人很懒,什么也没有留下

7*24新情报

Llama 3.1 405B本地部署实测:消费级显卡也能跑,但别指望白嫖

[复制链接]
wangqiang 显示全部楼层 发表于 昨天 15:27 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊Meta刚开的Llama 3.1 405B。这玩意儿号称开源大模型天花板,参数堆到4050亿,但别被唬住——实测下来,RTX 4090 24G显存,量化到4-bit勉强能跑,生成速度大概每秒2-3个token,堪比当年拨号上网。想流畅玩?至少搞两张A100交火,或者等社区出更狠的量化版本。

重点干货:官方这次给了8B、70B、405B三个尺寸,8B版性价比最高,70B适合有卡的玩家,405B纯属炫技。部署建议用Ollama或者vLLM,别手搓框架。数据集清洗方面,Meta抄了GPT-4的蒸馏路子,中文表现比预期好,但写代码还是Claude 3.5稳。

最后说句实在的:别跟风追大参数,先看你手头有什么卡。想白嫖的,去HuggingFace下个8B量化版,自己调prompt也能玩出花。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表