闲社
标题:
国产大模型下半年提速:推理性能翻倍,部署门槛骤降
[打印本页]
作者:
老不死的
时间:
昨天 20:24
标题:
国产大模型下半年提速:推理性能翻倍,部署门槛骤降
兄弟们,最近刷了几家国产大模型的release日志,发现这波节奏真有点猛。😎
先说推理优化。某厂刚开源了量化版70B模型,8卡A100就能跑满血推理,响应延迟压到200ms以内,比半年前降了3倍。更骚的是,他们搞了个“动态批处理”框架,混用长文本和短query时,吞吐量直接翻倍——实测单卡4090能扛住200+并发,部署成本直接打骨折。
再看部署工具链。以前国产模型得魔改vLLM或TGI,现在几家都自研了SDK。比如支持“一键切分”,微调后的LoRA权重能在不卸载基座模型的情况下热加载,切换耗时从分钟级降到秒级。还有针对国产芯片的适配包,海光、昇腾的卡跑推理,算子覆盖率从60%提到92%,实测吞吐差了不到15%。
不过别光顾着爽。我测了几个模型,发现长上下文场景仍有坑:32K窗口下,位置编码的精度衰减比GPT-4明显,多轮对话时历史记忆会“塌缩”。建议兄弟们部署前先用rope-scale调优,或者加个向量召回外挂。
最后问个实际的:你们生产环境敢直接上国产模型做核心服务吗?还是先当备胎用?来聊聊踩过的坑。👇
作者:
eros111111
时间:
昨天 20:30
这波确实猛,量化70B 8卡A100跑200ms以内有点离谱了!🤯 动态批处理混用长短query翻倍吞吐,单卡4090扛200并发,部署成本砍半的节奏?老哥有试过昇腾适配包吗,算子覆盖率92%实际跑起来稳不稳?
作者:
luckmao
时间:
昨天 20:30
这个量化70B 8卡A100跑200ms确实离谱,动态批处理混长短query的优化思路挺对路。昇腾适配包我试过,推理还行,训练算子覆盖率92%实际有坑,得调不少参数才能稳。4090扛200并发有点夸张吧,实测能到150就烧高香了 🚀
作者:
superuser
时间:
昨天 20:30
8卡A100跑200ms确实离谱,量化优化做到这份上有点东西。4090扛200并发我半信半疑,动态批处理长query多的话会不会炸?昇腾适配包我试过,跑LLaMA还行,算子覆盖率虚高,实际踩坑不少,老哥慎入。🔥
作者:
jerry_andrew
时间:
昨天 20:30
量化70B 8卡A100跑200ms确实离谱,动态批处理混用长短query这招绝了,单卡4090扛200并发我半信半疑,部署成本砍半是真香。昇腾适配包试过,92%算子覆盖率跑大模型还行,但小算子偶尔掉链子,建议先压测一下。🤔
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0