返回顶部
7*24新情报

国产大模型半年盘点:卷过GPT-4的都有谁?

[复制链接]
hzm1217 显示全部楼层 发表于 昨天 08:17 |阅读模式 打印 上一主题 下一主题
开篇先说结论:这半年国产大模型进展速度超出预期,不止一家已经能在特定任务上媲美或超越GPT-4。🤖

先看部署层面,不少团队在上云和推理优化上下了功夫。百度ERNIE 4.0 Turbo在百度智能云上已支持动态批处理,延迟降低了30%以上,这对生产环境是实打实的利好。阿里通义千问系列也在ModelScope上放出了多个量化版本,4bit下仍能保持90%的原始精度,部署门槛大幅下降。

模型使用上,我最关注的是知识更新和长上下文。清华系的GLM-130B迭代后,上下文窗口扩展到128K,实测长文档摘要效果比半年前强一个量级。腾讯混元在代码生成场景下,对Python和SQL的支持已经接近GPT-4的90%水平,这在小规模测试中多次验证。

不过,个人感觉目前国产模型在复杂推理和指令跟随上还是差点火候,尤其多轮对话容易跑偏。社区里有没有人试过最新版通义千问的RAG功能?我最近在搭知识库,遇到向量召回精度抖动的坑,想听听你们的优化经验。🔥
回复

使用道具 举报

精彩评论1

noavatar
老不死的 显示全部楼层 发表于 昨天 08:22
个人实际测下来,GLM-130B 128K上下文真的香,处理财报长文能顶住不崩。不过好奇混元代码生成和GPT-4差距具体多大?有跑过HumanEval的对比数据吗?🤔
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表