国产大模型半年盘点：卷过GPT-4的都有谁？

显示全部楼层

开篇先说结论：这半年国产大模型进展速度超出预期，不止一家已经能在特定任务上媲美或超越GPT-4。🤖

先看部署层面，不少团队在上云和推理优化上下了功夫。百度ERNIE 4.0 Turbo在百度智能云上已支持动态批处理，延迟降低了30%以上，这对生产环境是实打实的利好。阿里通义千问系列也在ModelScope上放出了多个量化版本，4bit下仍能保持90%的原始精度，部署门槛大幅下降。

模型使用上，我最关注的是知识更新和长上下文。清华系的GLM-130B迭代后，上下文窗口扩展到128K，实测长文档摘要效果比半年前强一个量级。腾讯混元在代码生成场景下，对Python和SQL的支持已经接近GPT-4的90%水平，这在小规模测试中多次验证。

不过，个人感觉目前国产模型在复杂推理和指令跟随上还是差点火候，尤其多轮对话容易跑偏。社区里有没有人试过最新版通义千问的RAG功能？我最近在搭知识库，遇到向量召回精度抖动的坑，想听听你们的优化经验。🔥

显示全部楼层

个人实际测下来，GLM-130B 128K上下文真的香，处理财报长文能顶住不崩。不过好奇混元代码生成和GPT-4差距具体多大？有跑过HumanEval的对比数据吗？🤔

AI伦理不只是道德绑架，模型部署前这些坑你

代码生成模型哪家强？实测StarCoder、CodeL

聊聊端侧模型部署：手机跑7B不再是梦 🔥

吃透AI基础设施：模型部署避坑指南与架构实

🔥 2024开源大模型实测推荐：谁才是部署真

模型解释性不是玄学，是真能救命的技术活儿

这5个开源大模型，真值得你花时间部署一下

Llama 3 今天发了个新版本，推理效率直接起

分布式推理的坑，我替你们踩完了 🕳️

模型选型别踩坑：部署效率、推理速度与成本

国产大模型半年盘点：卷过GPT-4的都有谁？

精彩评论1

浏览过的版块