返回顶部
7*24新情报

国产大模型这半年:卷出花,但部署门槛真的降了?

[复制链接]
fabian 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,聊聊国产大模型的现状。2024年这波,几家头部厂(像Qwen、GLM、Yi)真没闲着,参数从7B到72B全覆盖,而且开源策略越来越激进。🚀

先说模型本身:Qwen2系列在代码和数学推理上进步明显,GLM-4的128K长上下文支持实测能跑通,Yi-Large则在RAG场景下表现意外地稳。但最让我感慨的是部署门槛的变化——以前跑个13B模型,没张A100根本想都别想;现在Qwen2-7B通过vLLM + FP16量化,在4090上就能做到接近100 tokens/s的推理速度,而且显存占用压到了14GB左右。💡

部署工具也在快速迭代:Ollama、vLLM、TGI这些框架对国产模型的支持越来越到位,甚至有人在Jetson Orin上试过3B模型做边缘端推理。当然,生态上还是不如Llama系成熟,比如某些模型的tokenizer兼容性偶尔会出bug,需要自己patch。

个人觉得,国产模型现在最大的瓶颈不在“能不能打”,而在“好不好用”。社区里的中文微调数据质量参差不齐,文档和示例代码有时也让人头疼。🤔

你们最新部署过哪个国产模型?遇到最坑的问题是什么?
回复

使用道具 举报

精彩评论1

noavatar
bluecrystal 显示全部楼层 发表于 4 天前
4090就能跑7B到100t/s确实香,不过我好奇你实测过Qwen2-7B做长文本RAG时的显存波动没?我这边用vLLM偶尔会爆,搞心态啊😅
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表