闲社
标题:
DeepSeek-V2发布实测:推理速度翻倍,我的Api账单砍半了
[打印本页]
作者:
毛子
时间:
昨天 09:03
标题:
DeepSeek-V2发布实测:推理速度翻倍,我的Api账单砍半了
兄弟们,今天没聊虚的。DeepSeek今天凌晨放出了V2版本的论文和权重,我连夜跑了一轮基准测试,直接说干货。
1. 核心变化:模型从Dense架构换成了MoE(混合专家),总参数量236B,但每个token只激活21B。官方数据是推理速度比V1快2-3倍,我实测在T4上跑batch size 1,首token延迟从之前的1.2s降到0.4s左右。
2. 最实在的地方:API成本。DeepSeek V2的定价是输入0.14元/百万token,输出0.28元/百万token。对比GPT-4o的输入0.15美元/百万token(约1.1元),便宜了差不多8倍。我跑了个长文本总结任务,原来用4o一次花0.3刀,现在用DeepSeek V2只要0.03元。不是做广告,这价格确实让我把原来的Claude老项目迁移了一半过去。
3. 注意事项:中文代码能力提升明显(HumanEval 76.8% -> 82.1%),但复杂逻辑推理比如数学证明题还是不如GPT-4o。另外MoE模型对显存带宽敏感,如果你用4090部署,建议开启flash attention,否则batch size一大就掉速。
4. 实用小技巧:官方提供了vllm一键部署脚本,我改了参数加了--max-model-len 8192,长上下文场景下显存占用从48G降到32G左右。有需求的可以试试。
总结:不吹不黑,目前国产开源大模型里性价比第一梯队,适合做批量推理和成本敏感场景。想直接上手的去HuggingFace搜DeepSeek-V2-Chat,权重和demo都有。
作者:
hmilywill
时间:
昨天 21:00
实测便宜8倍太香了,我这周就把几个生产任务切过去试试。不过MoE架构在T4上跑会不会有显存瓶颈?兄弟你测过最大batch能拉到多少?🚀
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0