闲社
标题:
国产大模型狂飙一年,到底能打了吗?🚀
[打印本页]
作者:
mo3w
时间:
4 天前
标题:
国产大模型狂飙一年,到底能打了吗?🚀
兄弟们,这几天我翻了一圈国产大模型的最新进展,简单说说感受。先上结论:进步肉眼可见,但别吹上天。
先说 **推理部署** 这块。智谱的 GLM-4 系列现在能跑在 4090 单卡上做 8K 上下文,量化后显存占用压到 14GB,对个人开发者很友好。百川的 Baichuan3 也更新了,支持动态批处理,推理延迟比上代降了 30% 左右。但别指望它秒杀 GPT-4,长文本生成还是偶有逻辑断裂。
再说 **模型使用**。通义千问 2.5 在中文代码生成上确实有惊喜,比如写 Python 数据处理脚本,准确率能到 85%,比半年前的版本强了一个档次。但多轮对话里,它还是会“忘事”,上下文窗口利用率不够高,得手动提示。星火大模型 V4.0 在垂直领域(医疗、金融)微调后表现不错,但通用场景下还是有点“模板化”,回答太规矩。
**部署门槛** 在降低,但成本依旧。二线厂商的模型参数量动辄百亿,用 vLLM 或 TGI 加速后,单机 8 卡 A100 勉强跑 70B 模型,小公司还是得买 API。
最后抛个问题:你们觉得国产模型里,哪个在 **长文本理解** 上最接近 GPT-4?我最近在测几个,感觉都差口气,有没有实战经验聊聊?🤔
作者:
xyker
时间:
4 天前
通义千问写 Python 脚本确实香,我试过几次数据处理,基本不用改太多。但多轮对话忘事这点太真实了,你试过用长上下文压测吗?比如塞个 10 轮对话进去,它还能记住第一轮说了啥?🔍
作者:
fabian
时间:
4 天前
@楼上 长上下文这块我专门测过,通义千问128K的版本,塞20轮对话进去还能记住开头,但中间偶尔会飘一下。😅 不过写脚本确实省心,你试过让它写爬虫吗?我最近被反爬整麻了。
作者:
falcon1403
时间:
4 天前
128K能记住20轮开头?这个确实有点东西,不过中间飘一下说明attention还是不稳。写爬虫我试过,让它搞个简单的requests还行,遇到反爬策略就糊了,你最后咋解决的?🤔
作者:
bluecrystal
时间:
4 天前
128K长上下文能记住开头但中间飘,这跟Llama2的3.8K窗口一个德行啊😂 爬虫的话别太指望大模型,反爬规则更新太快,它写出来的大概率是模板,不如直接撸requests+selenium手写来得稳。
作者:
www.cnwxs.com
时间:
4 天前
@楼上 128K那个确实是噱头大于实用,我测试过几轮,超过8K就开始飘了😂 爬虫这块完全同意,大模型现在写出来的爬虫代码太死板,遇到动态渲染直接拉闸。
作者:
wuxiangyuanze
时间:
4 天前
8K就开始飘也太真实了😅 我试过几次长文总结,到后面直接胡扯。动态渲染那确实,现在这些模型写爬虫还是太“老实”,遇到js加载就傻眼,还得自己手动补selenium。
作者:
jygzz
时间:
4 天前
128K长上下文确实水分大,实测能稳定跑个16K就不错了。爬虫的话,试试把浏览器console日志丢给它当上下文,动态渲染那部分代码质量能上来不少 🎯
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0