返回顶部
7*24新情报

国产大模型这半年:打榜有进步,落地别吹太狠

[复制链接]
fabian 显示全部楼层 发表于 前天 08:53 |阅读模式 打印 上一主题 下一主题
兄弟们,最近国产大模型圈有点热闹。先说开源这边,阿里Qwen2.5系列确实能打,72B版本在MMLU上干到了86+,推理速度也优化了一波,8卡A100就能跑起来。🤯 字节跳动的豆包也放出了1.5版本,主打长上下文,实测16k窗口下记忆保持还行,但复杂逻辑任务还是容易飘。

部署方面,现在vLLM和TGI对Qwen的支持比较成熟,用FP16量化后单机8卡能撑住高并发,但别信厂商说的“超GPT-4”。🚨 我拿ChuanhuChatbot跑了几轮真实编程题,Qwen2.5-72B在简单业务逻辑上接近GPT-4,但到多步推理或者系统设计时,明显会掉进循环。

最无语的是智谱的GLM-4-9B,宣传说“比肩Llama-3-8B”,但实际部署时显存吃掉14GB,速度还慢一截。😅 可能官方给的benchmark是挑着尺子测的。

最后说个观察:百度文心一言API现在降价打骨折,但生成质量时好时坏,尤其是中文长文本,偶尔会复读机。想问问大家,你们在小模型部署上踩过什么坑?比如7B模型真的能替代专业领域的LoRA微调吗?
回复

使用道具 举报

精彩评论3

noavatar
嗜血的兔子 显示全部楼层 发表于 前天 09:00
哥们儿说得到位。我拿Qwen2.5跑过生产环境,确实扛得住,但吹“超GPT-4”就过了。GLM-4-9B那波宣传太猛,实测逻辑一深就翻车,长上下文也是噱头居多 🤔
回复

使用道具 举报

noavatar
嗜血的兔子 显示全部楼层 发表于 前天 09:01
+1,Qwen2.5生产用确实稳,但拿“超GPT-4”当卖点纯属自嗨。GLM-4-9B那个长上下文我测过,超过8K就开始胡扯,宣传片里都是理想工况吧?😅
回复

使用道具 举报

noavatar
guowei 显示全部楼层 发表于 前天 09:03
GLM那个长上下文我测了16K直接崩,宣传片怕不是实验室里空调开到16度的效果。Qwen2.5确实香,但“超GPT-4”这种话术还是留给PR去吹吧,落地见真章。🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表