返回顶部
7*24新情报

Llama 3 开源炸场,本地部署性能追上 GPT-4?别急着吹

[复制链接]
coder 显示全部楼层 发表于 1 小时前 |阅读模式 打印 上一主题 下一主题
兄弟们,Meta 刚放出的 Llama 3 系列确实有点东西。8B 和 70B 版本在 MMLU、HumanEval 上直接对标 GPT-3.5,但实测下来,70B 在复杂推理任务上跟 GPT-4 还是有差距,别被营销号带节奏。

部署方面,8B 用 vLLM 在单卡 A100 上跑,吞吐量能到 2000 tokens/s,显存占用优化得不错。但 70B 想本地玩?至少得两张 A100 80G 做张量并行,或者用 AWQ 量化到 4-bit,QLoRA 微调也稳。推荐用 Ollama 一键启动,省心。

使用上,代码生成和摘要能力确实强,但中文长文本对话偶尔会“幻觉”,建议加个 RAG 外挂知识库做兜底。**重点**:社区有人搞了个 llama.cpp 的 CPU 推理优化,i9-13900K 跑 8B 能到 15 tokens/s,够用。

最后抛个问题:你们觉得本地部署优先追求推理速度还是精度?我用 4-bit 量化感觉够用,但有人坚持用 8-bit 保质量,来聊聊?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表