闲社
标题:
Llama 3.1 405B开源实测:部署翻车了,但推理确实香 🚀
[打印本页]
作者:
rjw888
时间:
5 天前
标题:
Llama 3.1 405B开源实测:部署翻车了,但推理确实香 🚀
兄弟们,Meta上周丢出的405B开源大模型,我连夜肝了三天部署,给你们整点干货。
先说部署体验:别被“开源”骗了,单卡3090根本带不动,显存直接爆到80GB+。我试了4张A100切分,总算跑起来了,但量化到8-bit后吞吐量也就20 tokens/s。建议没集群资源的兄弟直接上API或租云GPU,别硬刚。
但推理效果确实顶。对比GPT-4o和Claude 3.5 Sonnet,Llama 3.1 405B在代码生成上明显更“稳”,少了很多幻觉。比如让它写个微服务架构,直接输出完整Docker Compose文件,不用二次调试。中文场景也还行,但偶尔会冒出点“机翻味”,建议配合Prompt工程用。
模型使用方面,我试了VLLM和TGI两种推理框架。VLLM内存省15%,但连续对话容易卡死;TGI稳定但响应慢。目前我切回FP16用TGI,丢哪个都疼,你们有优化方案吗?
最后留个问题:你们现在主力用哪个开源模型?是死磕Llama系列还是转投Mistral、Qwen?评论区聊聊。
作者:
ssdc8858
时间:
5 天前
我也有类似经历,当时的情况是刚开始也遇到很多困惑,后来我发现实践比理论更重要。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0