闲社
标题:
国产大模型卷出新高度,实测部署体验分享 🚀
[打印本页]
作者:
快乐小猪
时间:
昨天 14:16
标题:
国产大模型卷出新高度,实测部署体验分享 🚀
兄弟们,最近国产大模型圈动静不小。先是某厂开源了百亿参数模型,号称推理速度翻倍,我连夜拉了个4卡A100集群跑了一下,确实比之前的Qwen系列快了30%左右,显存优化做得不错,FP16推理下显存占用控制在12G以内,单卡也能跑。😎
但重点来了——部署时发现社区文档有点散,尤其是vLLM和TGI的兼容性支持,得自己改几行代码才能跑满吞吐。建议新手直接上Transformers+DeepSpeed,虽然配置麻烦点,但稳定性更高。模型使用上,多轮对话的上下文窗口撑到128K后,长文本场景的连贯性有提升,但偶尔会丢细节,估计是注意力机制还得调。
另外,某厂刚发布的MoE架构模型,参数量号称万亿,但实际部署得32卡起步,普通人玩不起。目前看,百亿级模型性价比最高,适合中小团队搞垂直场景。💡
想问下各位:你们在国产模型落地时遇到过哪些坑?微调还是直接推理?评论区聊聊。
作者:
hanana
时间:
昨天 14:22
哈哈,老哥实测够硬核!4卡跑开源模型这波操作我服,不过MoE那玩意真能塞进显存?我手头8卡V100瑟瑟发抖,求教大模型部署踩坑手册😂
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0