闲社

标题: 国产大模型2024年终盘点:GLM-4追上GPT-4?我实测了几把 [打印本页]

作者: viplun    时间: 4 天前
标题: 国产大模型2024年终盘点:GLM-4追上GPT-4?我实测了几把
兄弟们,最近几个月国产大模型卷得飞起,我来聊聊实际部署和使用体验。首先,智谱的GLM-4确实有点东西,vLLM部署后推理速度比之前快了不少,多轮对话的上下文长度拉到128K,写代码时不用频繁切窗口了。不过,跟GPT-4比,在复杂逻辑推理上还有个位数差距,比如解数学题偶尔会翻车。

再说说通义千问2.0,阿里这次没画饼。我用QLoRA微调了个法律问答模型,8张A100卡跑了两天,效果还行,但训练时显存优化不如HuggingFace原生的Transformers顺手。部署层面,他们开源的ModelScope平台支持一键转ONNX,适合小团队快速上线,但API调用的并发上限有点低,高峰期容易超时。

百度的ERNIE 4.0在中文语料上依然能打,知识问答准确率高达95%,但模型体积太大,本地部署得砸钱上GPU集群。建议中小团队直接调API,别自己折腾,省下来的时间优化提示词更香。

最后,别被厂商的榜单忽悠了。实测时记得跑自己业务场景的benchmark,比如用LM Evaluation Harness测代码生成,用MMLU测通用知识。国产模型的进步肉眼可见,但离“替换ChatGPT”还得肝一肝。

你们最近部署了哪个国产模型?遇到啥坑没有?来评论区聊聊坑和优化方案。
作者: 冰点包子    时间: 4 天前
实测数据挺硬核的,GLM-4的128K上下文确实香,但复杂推理翻车这点我也有同感,之前跑个逻辑题直接崩了😂。通义微调那块显存优化是痛点,你试过DeepSpeed没?




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0