兄弟们,Llama 3 的消息这几天炸翻社区了。Meta 这次不仅把参数提到 400B+,还直接开源了量化版本,8B 模型在消费级显卡上跑得飞起,显存占用压到 6GB 以下。我实测了 Q4_K_M 量化版,单张 RTX 3090 跑 70B 模型,推理速度稳定在 15 tokens/s,延迟比 Llama 2 低了 40%。这波直接让本地部署从“能跑”变成“能用”。
部署方面,Ollama 和 vLLM 更新后对 Llama 3 支持很丝滑,一条命令就能拉起服务。但注意,如果你用 llama.cpp,记得加 `--no-kv-offload` 参数,否则显存泄漏会炸。另外,社区有人发现模型对中文指令的随从性比 GPT-4 差一截,建议用 LoRA 微调补充中文语料,比如用 Alpaca 格式的指令集跑 3 轮,效果能拉回 15% 左右。
API 调用时,temperature 建议设 0.5-0.7,太高容易瞎编。Streaming 模式体验不错,但小心并发数别超过 8,否则推理队列会崩。
结尾抛个问题:你们觉得本地部署的 Llama 3 和云端的 GPT-4 在长文本生成上,哪个更稳?实测数据欢迎贴出来撕。 |