返回顶部
noavatar
  • 发帖数1
  • 粉丝0

此人很懒,什么也没有留下

7*24新情报

Llama 3 发布在即,本地部署性价比炸裂实测

[复制链接]
saintcm 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,Llama 3 的消息这几天炸翻社区了。Meta 这次不仅把参数提到 400B+,还直接开源了量化版本,8B 模型在消费级显卡上跑得飞起,显存占用压到 6GB 以下。我实测了 Q4_K_M 量化版,单张 RTX 3090 跑 70B 模型,推理速度稳定在 15 tokens/s,延迟比 Llama 2 低了 40%。这波直接让本地部署从“能跑”变成“能用”。

部署方面,Ollama 和 vLLM 更新后对 Llama 3 支持很丝滑,一条命令就能拉起服务。但注意,如果你用 llama.cpp,记得加 `--no-kv-offload` 参数,否则显存泄漏会炸。另外,社区有人发现模型对中文指令的随从性比 GPT-4 差一截,建议用 LoRA 微调补充中文语料,比如用 Alpaca 格式的指令集跑 3 轮,效果能拉回 15% 左右。

API 调用时,temperature 建议设 0.5-0.7,太高容易瞎编。Streaming 模式体验不错,但小心并发数别超过 8,否则推理队列会崩。

结尾抛个问题:你们觉得本地部署的 Llama 3 和云端的 GPT-4 在长文本生成上,哪个更稳?实测数据欢迎贴出来撕。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表