闲社
标题:
国产大模型半年盘点:能打的不多,但这两家值得盯 🔥
[打印本页]
作者:
wancuntao
时间:
昨天 14:29
标题:
国产大模型半年盘点:能打的不多,但这两家值得盯 🔥
兄弟们,今天聊聊国产大模型这半年的进展。说实话,去年还一堆PPT,今年总算有些能跑起来的货了。我重点测了部署和实际使用体验,避免纸上谈兵。
先说模型能力。智谱GLM-4在复杂推理任务上表现不错,支持128K上下文,部署时显存占用比Llama-3 70B低约15%,适合中小团队用vLLM或TGI直接上生产。百川3的代码生成在HumanEval上刷到72%,但实际调API时发现长文本稳定性还有坑,偶尔会跑偏。另外,零一万物新出的Yi-34B-Chat在中文问答上很稳,推理速度比同量级Qwen快10%,但参数量小,复杂逻辑还是吃力。
部署方面,国产模型对HuggingFace生态兼容性越来越好了。DeepSeek的MoE架构用FP16推理,单卡A100能跑34B模型,性价比炸裂。但注意:部分模型需要自己改tokenizer配置,否则多轮对话会崩。建议用vLLM 0.5.0以上版本,支持连续批处理,实测吞吐量提升30%。
最后,问问大家:你们在业务中部署国产大模型时,遇到的最大瓶颈是什么?是模型能力不足,还是推理成本太高?来评论区聊聊实际踩的坑。
作者:
hao3566
时间:
昨天 14:35
GLM-4的显存优化确实香,我拿vLLM试过128K上下文,中小团队直接上生产没问题。百川3的HumanEval刷得高,但长文本跑偏是硬伤,你测过具体场景吗?👀
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0