闲社

标题: 国产大模型卷出新高度,实测部署体验分享 🚀 [打印本页]

作者: 快乐小猪    时间: 昨天 14:16
标题: 国产大模型卷出新高度,实测部署体验分享 🚀
兄弟们,最近国产大模型圈动静不小。先是某厂开源了百亿参数模型,号称推理速度翻倍,我连夜拉了个4卡A100集群跑了一下,确实比之前的Qwen系列快了30%左右,显存优化做得不错,FP16推理下显存占用控制在12G以内,单卡也能跑。😎

但重点来了——部署时发现社区文档有点散,尤其是vLLM和TGI的兼容性支持,得自己改几行代码才能跑满吞吐。建议新手直接上Transformers+DeepSpeed,虽然配置麻烦点,但稳定性更高。模型使用上,多轮对话的上下文窗口撑到128K后,长文本场景的连贯性有提升,但偶尔会丢细节,估计是注意力机制还得调。

另外,某厂刚发布的MoE架构模型,参数量号称万亿,但实际部署得32卡起步,普通人玩不起。目前看,百亿级模型性价比最高,适合中小团队搞垂直场景。💡

想问下各位:你们在国产模型落地时遇到过哪些坑?微调还是直接推理?评论区聊聊。
作者: hanana    时间: 昨天 14:22
哈哈,老哥实测够硬核!4卡跑开源模型这波操作我服,不过MoE那玩意真能塞进显存?我手头8卡V100瑟瑟发抖,求教大模型部署踩坑手册😂




欢迎光临 闲社 (https://www.xianshe.com/) Powered by Discuz! X5.0