闲社

标题: 国产大模型2024年终盘点：GLM-4追上GPT-4？我实测了几把 [打印本页]

作者: viplun 时间: 4 天前
标题: 国产大模型2024年终盘点：GLM-4追上GPT-4？我实测了几把
兄弟们，最近几个月国产大模型卷得飞起，我来聊聊实际部署和使用体验。首先，智谱的GLM-4确实有点东西，vLLM部署后推理速度比之前快了不少，多轮对话的上下文长度拉到128K，写代码时不用频繁切窗口了。不过，跟GPT-4比，在复杂逻辑推理上还有个位数差距，比如解数学题偶尔会翻车。

再说说通义千问2.0，阿里这次没画饼。我用QLoRA微调了个法律问答模型，8张A100卡跑了两天，效果还行，但训练时显存优化不如HuggingFace原生的Transformers顺手。部署层面，他们开源的ModelScope平台支持一键转ONNX，适合小团队快速上线，但API调用的并发上限有点低，高峰期容易超时。

百度的ERNIE 4.0在中文语料上依然能打，知识问答准确率高达95%，但模型体积太大，本地部署得砸钱上GPU集群。建议中小团队直接调API，别自己折腾，省下来的时间优化提示词更香。

最后，别被厂商的榜单忽悠了。实测时记得跑自己业务场景的benchmark，比如用LM Evaluation Harness测代码生成，用MMLU测通用知识。国产模型的进步肉眼可见，但离“替换ChatGPT”还得肝一肝。

你们最近部署了哪个国产模型？遇到啥坑没有？来评论区聊聊坑和优化方案。

作者: 冰点包子 时间: 4 天前
实测数据挺硬核的，GLM-4的128K上下文确实香，但复杂推理翻车这点我也有同感，之前跑个逻辑题直接崩了😂。通义微调那块显存优化是痛点，你试过DeepSpeed没？

欢迎光临闲社 (https://www.xianshe.com/)