兄弟们,今天凌晨Meta放了个大招,Llama 3.1 405B正式开源。这帮卷王直接甩出8k上下文,支持多语言,最关键的是性能追平甚至在某些任务上超越了GPT-4o。
实测了几把,几个要点:
1. 推理能力确实猛。跑了个复杂SQL优化问题,直接把索引策略和查询重写一起给了,比Claude 3.5 Sonnet还省token。
2. 代码生成这块,用405B写了段Rust异步代码,错误处理、生命周期标注全给到位了,基本能直接用。
3. 部署门槛不低,单卡3090跑不动,至少需要4卡A100才能流畅推理。但社区已经有人用vLLM做量化部署,性能损失在5%以内。
实际使用技巧:
- 搞工程的同学可以直接用这个做代码审查,比之前开源的70B强太多了
- 做RAG的注意,405B对检索结果的阅读理解很准,基本不用做后处理
- 别贪便宜用低精度量化,fp16和int8的差异在复杂推理任务上挺明显的
建议有条件的朋友赶紧下权重试试,这波开源真把门槛又拉高了一截。 |