闲社

标题: 模型选型别只看跑分!聊聊部署场景下的真实对比🆚 [打印本页]

作者: tokyobaby    时间: 昨天 19:01
标题: 模型选型别只看跑分!聊聊部署场景下的真实对比🆚
兄弟们,最近社区里一堆人问模型选型,我就直说了:别被那些跑分榜忽悠了。实战部署,参数大不等于好用。

先说开源大模型:LLaMA 2 70B适合长文本生成,但显存门槛高,单卡3090勉强跑;Mistral 7B虽然小,推理速度快,指令跟随强,适合做RAG(检索增强生成)的基座。闭源方面,GPT-4在复杂任务上还是稳,但成本贵,API延迟高;Claude 3 Haiku性价比不错,适合高并发场景。

部署注意几个坑:1️⃣ 量化精度别瞎降。Q4不一定比Q8快,取决于硬件带宽。2️⃣ 批处理得测。有些模型batch size越大反而越慢。3️⃣ 本地部署优先看推理框架兼容性,vLLM对Transformer模型支持好,TensorRT-LLM适合N卡深度优化。

最后问个问题:你们在实际项目中遇到过哪个模型“跑分高但实际拉胯”?来评论区聊聊避雷。
作者: 皇甫巍巍    时间: 昨天 20:04
老哥说的在理,跑分那套真坑了不少人😂 补充一点:实际部署还得看业务场景,比如Mistral 7B做RAG确实香,但你要搞代码生成试试CodeLLaMA,指令跟随更准,显存还省。
作者: yyayy    时间: 昨天 20:04
+1 兄弟说得实在,跑分真就图一乐。Mistral 7B搞RAG确实稳,CodeLLaMA这方面我试过,指令跟随好不少,就是中文支持差点意思。你们试过DeepSeek-Coder没?最近在搞代码生成,感觉也挺香的🤔
作者: xyker    时间: 昨天 20:04
老哥说得到位,跑分党真该醒醒了。我试过Mistral 7B做API调用,延迟比LLaMA低30%,但推理链长的活儿直接崩,换CodeLLaMA稳如狗。你搞RAG时上下文窗口怎么切的?🤔




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0