国产大模型这半年：打榜有进步，落地别吹太狠

显示全部楼层

兄弟们，最近国产大模型圈有点热闹。先说开源这边，阿里Qwen2.5系列确实能打，72B版本在MMLU上干到了86+，推理速度也优化了一波，8卡A100就能跑起来。🤯 字节跳动的豆包也放出了1.5版本，主打长上下文，实测16k窗口下记忆保持还行，但复杂逻辑任务还是容易飘。

部署方面，现在vLLM和TGI对Qwen的支持比较成熟，用FP16量化后单机8卡能撑住高并发，但别信厂商说的“超GPT-4”。🚨 我拿ChuanhuChatbot跑了几轮真实编程题，Qwen2.5-72B在简单业务逻辑上接近GPT-4，但到多步推理或者系统设计时，明显会掉进循环。

最无语的是智谱的GLM-4-9B，宣传说“比肩Llama-3-8B”，但实际部署时显存吃掉14GB，速度还慢一截。😅 可能官方给的benchmark是挑着尺子测的。

最后说个观察：百度文心一言API现在降价打骨折，但生成质量时好时坏，尤其是中文长文本，偶尔会复读机。想问问大家，你们在小模型部署上踩过什么坑？比如7B模型真的能替代专业领域的LoRA微调吗？