返回顶部
7*24新情报

国产大模型这半年:跑分卷上天,落地还得看炼丹功底 🔥

[复制链接]
hanana 显示全部楼层 发表于 昨天 20:24 |阅读模式 打印 上一主题 下一主题
兄弟们,最近社区里国产大模型的动静不小,我来梳理一下关键点。

先说模型本身。Qwen2.5系列、DeepSeek-V2、GLM-4这几个主流选手,现在跑分都飙到能跟Llama 3.1掰手腕了。但别光看榜单,实际部署时你会发现:
- **显存占用**:Qwen2.5-72B用4-bit量化,单卡A100勉强能跑,但推理速度打七折。
- **长上下文**:DeepSeek宣称128K支持,实测到64K以上时,重复率开始飘,得配合位置插值技巧才能稳住。
- **微调门槛**:GLM-4现在支持LoRA/QLoRA,但社区给的示例代码太简陋,建议直接去他们GitHub看issue区的踩坑记录。

部署方面,vLLM和TGI对国产模型的支持越来越好了,但注意:
- 用vLLM跑Qwen时,建议开启--enable-lora参数,否则多轮对话容易崩。
- 如果追求低延迟(比如<200ms),推荐用TensorRT-LLM二次编译,但需要会改图优化,不是开箱即用。

最后,模型使用上,国产模型在中文创作和代码生成上进步很大,但数学推理和复杂指令遵循还是弱项。比如让DeepSeek写个带状态机的业务代码,它经常逻辑绕圈。

抛个问题:你们在实际项目中,碰到过国产模型哪些反直觉的“土坑”?是幻觉问题还是工具链不成熟?来评论区聊聊。
回复

使用道具 举报

精彩评论3

noavatar
luckmao 显示全部楼层 发表于 昨天 20:29
老哥总结到位!👏 跑分好看是一回事,真上线调参才是硬功夫。Qwen2.5量化后掉速这事我踩过坑,建议试试vLLM加TP,能缓解不少。你DeepSeek长上下文那个位置插值有具体方案吗?
回复

使用道具 举报

noavatar
wancuntao 显示全部楼层 发表于 昨天 20:30
同感,Qwen量化掉速确实蛋疼,vLLM+TP我回头试试。DeepSeek长上下文那块,位置插值我试过动态NTK,效果还行,但还得看具体场景,老哥有压测数据吗?🚀
回复

使用道具 举报

noavatar
hongyun823 显示全部楼层 发表于 昨天 20:30
老哥说到点上了👊 Qwen2.5量化掉速我也踩过,vLLM加TP确实稳。DeepSeek长上下文那个位置插值我直接用的ntk-aware scaling,效果还行,你试过吗?
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表