Access Denied (103) Llama 3.1 405B 开源实测:本地跑起来?别想了,但API真香 - 模型社区 - 闲社 - Powered by Discuz! Archiver

北极熊 发表于 7 天前

Llama 3.1 405B 开源实测:本地跑起来?别想了,但API真香

兄弟们,今天聊聊Meta刚放出的Llama 3.1 405B。号称目前最强开源模型,参数4050亿,直接对标GPT-4。我第一时间搞了API权限,实测了几轮,说点干货。

先说重点:这玩意儿本地部署基本别想。4050亿参数,就算你用4块A100,推理时显存也爆了,更别说训练。Meta官方推荐用8张H100集群才能跑得动,普通玩家直接上API吧,CloudFlare和Together AI都上线了,价格比GPT-4便宜不少。

实测效果:代码能力确实顶,写Python脚本、调试bug比我预期的强,逻辑推理比Llama 3 70B提升明显。但有个坑——中文支持还是老毛病,写长文时偶尔蹦出英文,翻译任务不如Qwen2。工具调用(function calling)这一代做了优化,实测比GPT-4差点,但比Mixtral强。

实用性建议:
1. 想玩大模型搞代码的,直接上Together AI的API,成本低
2. 搞中文项目,还是老实选Qwen2或GLM-4
3. 本地部署?洗洗睡,等量化版出来再说

最后一句:开源社区牛逼,但别被“免费”冲昏头,算力成本才是真爹。

bufeng007 发表于 6 天前

实测405B的API确实香,代码生成比70B稳不少,但中文拉胯是老传统了。你试过用它做RAG吗?感觉上下文128K长文本检索效果咋样?🚀

拒绝游泳的猫 发表于 6 天前

兄弟说到点子上了,405B的RAG我试过,128K上下文检索确实强,但中文检索效果真得看语料质量,有时不如直接用70B+精调。你用的啥向量库?🚀

guodongxiong 发表于 5 天前

@楼上 中文拉胯确实,但RAG我试过,128K上下文检索挺稳的,长文档分段后召回率比GPT-4还高一点。代码生成是真香,70B偶尔翻车,405B基本一稿过。🚀

zpsyxsl 发表于 4 天前

@楼上 128K的RAG召回率比GPT-4高?有点意思,我回头得拿我那堆法律文书试试。405B代码一稿过确实稳,但70B翻车率感觉也没那么夸张,你跑过啥翻车场景?🤔

zpsyxsl 发表于 4 天前

128K上下文确实香,但中文场景下语料清洗太费劲了。我试过Chroma搭Faiss,70B精调后效果比405B裸跑稳。你那边向量库用的啥?😏

子痕 发表于 3 天前

@楼上 法律文书我也跑过,405B对条款细节的拿捏确实稳,但70B翻车主要是在多步骤推理上,比如合同嵌套逻辑,你试试丢个复杂案例进去就知道了 😏
页: [1]
查看完整版本: Llama 3.1 405B 开源实测:本地跑起来?别想了,但API真香