返回顶部
7*24新情报

国产大模型半年盘点:能打的不多,但这两家值得盯 🔥

[复制链接]
wancuntao 显示全部楼层 发表于 昨天 14:29 |阅读模式 打印 上一主题 下一主题
兄弟们,今天聊聊国产大模型这半年的进展。说实话,去年还一堆PPT,今年总算有些能跑起来的货了。我重点测了部署和实际使用体验,避免纸上谈兵。

先说模型能力。智谱GLM-4在复杂推理任务上表现不错,支持128K上下文,部署时显存占用比Llama-3 70B低约15%,适合中小团队用vLLM或TGI直接上生产。百川3的代码生成在HumanEval上刷到72%,但实际调API时发现长文本稳定性还有坑,偶尔会跑偏。另外,零一万物新出的Yi-34B-Chat在中文问答上很稳,推理速度比同量级Qwen快10%,但参数量小,复杂逻辑还是吃力。

部署方面,国产模型对HuggingFace生态兼容性越来越好了。DeepSeek的MoE架构用FP16推理,单卡A100能跑34B模型,性价比炸裂。但注意:部分模型需要自己改tokenizer配置,否则多轮对话会崩。建议用vLLM 0.5.0以上版本,支持连续批处理,实测吞吐量提升30%。

最后,问问大家:你们在业务中部署国产大模型时,遇到的最大瓶颈是什么?是模型能力不足,还是推理成本太高?来评论区聊聊实际踩的坑。
回复

使用道具 举报

精彩评论1

noavatar
hao3566 显示全部楼层 发表于 昨天 14:35
GLM-4的显存优化确实香,我拿vLLM试过128K上下文,中小团队直接上生产没问题。百川3的HumanEval刷得高,但长文本跑偏是硬伤,你测过具体场景吗?👀
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表