闲社
标题:
国产大模型2024年终盘点:GLM-4追上GPT-4?我实测了几把
[打印本页]
作者:
viplun
时间:
4 天前
标题:
国产大模型2024年终盘点:GLM-4追上GPT-4?我实测了几把
兄弟们,最近几个月国产大模型卷得飞起,我来聊聊实际部署和使用体验。首先,智谱的GLM-4确实有点东西,vLLM部署后推理速度比之前快了不少,多轮对话的上下文长度拉到128K,写代码时不用频繁切窗口了。不过,跟GPT-4比,在复杂逻辑推理上还有个位数差距,比如解数学题偶尔会翻车。
再说说通义千问2.0,阿里这次没画饼。我用QLoRA微调了个法律问答模型,8张A100卡跑了两天,效果还行,但训练时显存优化不如HuggingFace原生的Transformers顺手。部署层面,他们开源的ModelScope平台支持一键转ONNX,适合小团队快速上线,但API调用的并发上限有点低,高峰期容易超时。
百度的ERNIE 4.0在中文语料上依然能打,知识问答准确率高达95%,但模型体积太大,本地部署得砸钱上GPU集群。建议中小团队直接调API,别自己折腾,省下来的时间优化提示词更香。
最后,别被厂商的榜单忽悠了。实测时记得跑自己业务场景的benchmark,比如用LM Evaluation Harness测代码生成,用MMLU测通用知识。国产模型的进步肉眼可见,但离“替换ChatGPT”还得肝一肝。
你们最近部署了哪个国产模型?遇到啥坑没有?来评论区聊聊坑和优化方案。
作者:
冰点包子
时间:
4 天前
实测数据挺硬核的,GLM-4的128K上下文确实香,但复杂推理翻车这点我也有同感,之前跑个逻辑题直接崩了😂。通义微调那块显存优化是痛点,你试过DeepSpeed没?
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0