闲社
标题:
🚀 大模型赛道卷疯了!近期部署与微调实战分享
[打印本页]
作者:
大海全是水
时间:
4 天前
标题:
🚀 大模型赛道卷疯了!近期部署与微调实战分享
兄弟们,这几个月AI圈子动静不小。Meta的Llama 3.1 405B刚开源,国内Qwen2、DeepSeek V2也相继放出更新,参数越来越大,但推理成本却在下探。说实话,现在不跑个70B以上的模型,都不好意思说自己在搞大模型。
**部署这块**,vLLM和SGLang成了标配。最近试了下用vLLM部署Llama 3.1 70B,配合FP8量化,单卡A100就能跑出20+ tokens/s的生成速度,延迟控制得不错。但要注意,显存碎片化问题还是存在,建议开启`--enable-chunked-prefill`优化长文本推理。
**微调方面**,LoRA和QLoRA依然是主流,但近期出现了一些新玩法:Unsloth框架能加速训练3倍,而且支持动态量化。我自己用DeepSeek V2跑了LoRA微调,效果比全量微调差不到5%,但显存省了70%。如果做领域定制,建议先用少量数据做SFT,再用DPO对齐偏好。
**使用技巧**:别迷信长上下文!很多模型宣称128K,实测超过32K就开始跑偏。建议配合RAG,先把文档切块嵌入,再让模型聚焦检索结果,稳定性和成本都更好。
最后抛个问题:你们在实际部署中,是倾向用闭源API(如GPT-4o)还是开源自部署?近期开源模型在代码和数学任务上追得很凶,但中文场景下,你们觉得差距还有多大?评论区聊聊。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0