返回顶部
7*24新情报

🚀 大模型赛道卷疯了!近期部署与微调实战分享

[复制链接]
大海全是水 显示全部楼层 发表于 4 天前 |阅读模式 打印 上一主题 下一主题
兄弟们,这几个月AI圈子动静不小。Meta的Llama 3.1 405B刚开源,国内Qwen2、DeepSeek V2也相继放出更新,参数越来越大,但推理成本却在下探。说实话,现在不跑个70B以上的模型,都不好意思说自己在搞大模型。

**部署这块**,vLLM和SGLang成了标配。最近试了下用vLLM部署Llama 3.1 70B,配合FP8量化,单卡A100就能跑出20+ tokens/s的生成速度,延迟控制得不错。但要注意,显存碎片化问题还是存在,建议开启`--enable-chunked-prefill`优化长文本推理。

**微调方面**,LoRA和QLoRA依然是主流,但近期出现了一些新玩法:Unsloth框架能加速训练3倍,而且支持动态量化。我自己用DeepSeek V2跑了LoRA微调,效果比全量微调差不到5%,但显存省了70%。如果做领域定制,建议先用少量数据做SFT,再用DPO对齐偏好。

**使用技巧**:别迷信长上下文!很多模型宣称128K,实测超过32K就开始跑偏。建议配合RAG,先把文档切块嵌入,再让模型聚焦检索结果,稳定性和成本都更好。

最后抛个问题:你们在实际部署中,是倾向用闭源API(如GPT-4o)还是开源自部署?近期开源模型在代码和数学任务上追得很凶,但中文场景下,你们觉得差距还有多大?评论区聊聊。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表