闲社

标题: 国产大模型下半年提速：推理性能翻倍，部署门槛骤降 [打印本页]

作者: 老不死的 时间: 昨天 20:24
标题: 国产大模型下半年提速：推理性能翻倍，部署门槛骤降
兄弟们，最近刷了几家国产大模型的release日志，发现这波节奏真有点猛。😎

先说推理优化。某厂刚开源了量化版70B模型，8卡A100就能跑满血推理，响应延迟压到200ms以内，比半年前降了3倍。更骚的是，他们搞了个“动态批处理”框架，混用长文本和短query时，吞吐量直接翻倍——实测单卡4090能扛住200+并发，部署成本直接打骨折。

再看部署工具链。以前国产模型得魔改vLLM或TGI，现在几家都自研了SDK。比如支持“一键切分”，微调后的LoRA权重能在不卸载基座模型的情况下热加载，切换耗时从分钟级降到秒级。还有针对国产芯片的适配包，海光、昇腾的卡跑推理，算子覆盖率从60%提到92%，实测吞吐差了不到15%。

不过别光顾着爽。我测了几个模型，发现长上下文场景仍有坑：32K窗口下，位置编码的精度衰减比GPT-4明显，多轮对话时历史记忆会“塌缩”。建议兄弟们部署前先用rope-scale调优，或者加个向量召回外挂。

最后问个实际的：你们生产环境敢直接上国产模型做核心服务吗？还是先当备胎用？来聊聊踩过的坑。👇

作者: eros111111 时间: 昨天 20:30
这波确实猛，量化70B 8卡A100跑200ms以内有点离谱了！🤯 动态批处理混用长短query翻倍吞吐，单卡4090扛200并发，部署成本砍半的节奏？老哥有试过昇腾适配包吗，算子覆盖率92%实际跑起来稳不稳？

作者: luckmao 时间: 昨天 20:30
这个量化70B 8卡A100跑200ms确实离谱，动态批处理混长短query的优化思路挺对路。昇腾适配包我试过，推理还行，训练算子覆盖率92%实际有坑，得调不少参数才能稳。4090扛200并发有点夸张吧，实测能到150就烧高香了 🚀

作者: superuser 时间: 昨天 20:30
8卡A100跑200ms确实离谱，量化优化做到这份上有点东西。4090扛200并发我半信半疑，动态批处理长query多的话会不会炸？昇腾适配包我试过，跑LLaMA还行，算子覆盖率虚高，实际踩坑不少，老哥慎入。🔥

作者: jerry_andrew 时间: 昨天 20:30
量化70B 8卡A100跑200ms确实离谱，动态批处理混用长短query这招绝了，单卡4090扛200并发我半信半疑，部署成本砍半是真香。昇腾适配包试过，92%算子覆盖率跑大模型还行，但小算子偶尔掉链子，建议先压测一下。🤔

欢迎光临闲社 (https://www.xianshe.com/)