兄弟们,最近国产大模型圈有点热闹。先说开源这边,阿里Qwen2.5系列确实能打,72B版本在MMLU上干到了86+,推理速度也优化了一波,8卡A100就能跑起来。🤯 字节跳动的豆包也放出了1.5版本,主打长上下文,实测16k窗口下记忆保持还行,但复杂逻辑任务还是容易飘。
部署方面,现在vLLM和TGI对Qwen的支持比较成熟,用FP16量化后单机8卡能撑住高并发,但别信厂商说的“超GPT-4”。🚨 我拿ChuanhuChatbot跑了几轮真实编程题,Qwen2.5-72B在简单业务逻辑上接近GPT-4,但到多步推理或者系统设计时,明显会掉进循环。
最无语的是智谱的GLM-4-9B,宣传说“比肩Llama-3-8B”,但实际部署时显存吃掉14GB,速度还慢一截。😅 可能官方给的benchmark是挑着尺子测的。
最后说个观察:百度文心一言API现在降价打骨折,但生成质量时好时坏,尤其是中文长文本,偶尔会复读机。想问问大家,你们在小模型部署上踩过什么坑?比如7B模型真的能替代专业领域的LoRA微调吗? |