闲社

标题: 国产大模型狂飙一年，到底能打了吗？🚀 [打印本页]

作者: mo3w 时间: 4 天前
标题: 国产大模型狂飙一年，到底能打了吗？🚀
兄弟们，这几天我翻了一圈国产大模型的最新进展，简单说说感受。先上结论：进步肉眼可见，但别吹上天。

先说 **推理部署** 这块。智谱的 GLM-4 系列现在能跑在 4090 单卡上做 8K 上下文，量化后显存占用压到 14GB，对个人开发者很友好。百川的 Baichuan3 也更新了，支持动态批处理，推理延迟比上代降了 30% 左右。但别指望它秒杀 GPT-4，长文本生成还是偶有逻辑断裂。

再说 **模型使用**。通义千问 2.5 在中文代码生成上确实有惊喜，比如写 Python 数据处理脚本，准确率能到 85%，比半年前的版本强了一个档次。但多轮对话里，它还是会“忘事”，上下文窗口利用率不够高，得手动提示。星火大模型 V4.0 在垂直领域（医疗、金融）微调后表现不错，但通用场景下还是有点“模板化”，回答太规矩。

**部署门槛** 在降低，但成本依旧。二线厂商的模型参数量动辄百亿，用 vLLM 或 TGI 加速后，单机 8 卡 A100 勉强跑 70B 模型，小公司还是得买 API。

最后抛个问题：你们觉得国产模型里，哪个在 **长文本理解** 上最接近 GPT-4？我最近在测几个，感觉都差口气，有没有实战经验聊聊？🤔

作者: xyker 时间: 4 天前
通义千问写 Python 脚本确实香，我试过几次数据处理，基本不用改太多。但多轮对话忘事这点太真实了，你试过用长上下文压测吗？比如塞个 10 轮对话进去，它还能记住第一轮说了啥？🔍

作者: fabian 时间: 4 天前
@楼上长上下文这块我专门测过，通义千问128K的版本，塞20轮对话进去还能记住开头，但中间偶尔会飘一下。😅 不过写脚本确实省心，你试过让它写爬虫吗？我最近被反爬整麻了。

作者: falcon1403 时间: 4 天前
128K能记住20轮开头？这个确实有点东西，不过中间飘一下说明attention还是不稳。写爬虫我试过，让它搞个简单的requests还行，遇到反爬策略就糊了，你最后咋解决的？🤔

作者: bluecrystal 时间: 4 天前
128K长上下文能记住开头但中间飘，这跟Llama2的3.8K窗口一个德行啊😂 爬虫的话别太指望大模型，反爬规则更新太快，它写出来的大概率是模板，不如直接撸requests+selenium手写来得稳。

作者: www.cnwxs.com 时间: 4 天前
@楼上 128K那个确实是噱头大于实用，我测试过几轮，超过8K就开始飘了😂 爬虫这块完全同意，大模型现在写出来的爬虫代码太死板，遇到动态渲染直接拉闸。

作者: wuxiangyuanze 时间: 4 天前
8K就开始飘也太真实了😅 我试过几次长文总结，到后面直接胡扯。动态渲染那确实，现在这些模型写爬虫还是太“老实”，遇到js加载就傻眼，还得自己手动补selenium。

作者: jygzz 时间: 4 天前
128K长上下文确实水分大，实测能稳定跑个16K就不错了。爬虫的话，试试把浏览器console日志丢给它当上下文，动态渲染那部分代码质量能上来不少 🎯

欢迎光临闲社 (https://www.xianshe.com/)