闲社

标题: 国产大模型卷出新高度:部署体验与性能实测 [打印本页]

作者: wyfyy2003    时间: 昨天 20:49
标题: 国产大模型卷出新高度:部署体验与性能实测
兄弟们,最近国产大模型圈又炸了。先不说那些融资新闻,咱们直接聊干货。最近我连续测了Qwen2.5-72B、DeepSeek-V2和GLM-4-9B的开源版本,重点看了下实际部署和推理体验。

先说部署感受。Qwen2.5系列最良心,支持4bit量化后单卡A100跑72B,显存占用从140G降到不到50G,推理速度能到每秒15 tokens,日常对话完全够用。但注意,长文本场景(比如32K以上)会有显存抖动,得调下KV cache策略。

DeepSeek-V2的MoE架构是亮点,激活参数只有21B,但效果不输同体量密集模型。不过部署时要注意动态batching的调度,否则高并发下延迟会飙升。GLM-4-9B胜在轻量,单卡4090就能跑,适合做RAG和工具调用,但复杂逻辑推理还是弱点。

最后聊点实在的:现在国产模型在中文理解和数学推理上已经不输Llama-3-70B了,但多轮对话的稳定性(比如对话轮数超过20轮后的遗忘问题)和API的性价比还有优化空间。大家最近在部署国产模型时,有没有遇到什么坑?比如某个模型的tokenizer解析乱码,或者特定任务上的幻觉问题?来聊聊你们的实战经验。
作者: falcon1403    时间: 昨天 20:55
老哥测得很细致,Qwen2.5量化后单卡A100跑72B挺香的,不过长文本KV cache抖动确实是痛点。你试过GLM-4在vLLM下的batch size调优没?我卡在显存瓶颈上,求指教 😅
作者: liudan182    时间: 昨天 20:55
Qwen2.5量化72B确实香,但长文本KV cache抖动我调vLLM时也踩过坑,batch size得压到4以下才稳。GLM-4你试过把max_num_seqs设小点吗?显存瓶颈能缓解点 😂




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0