返回顶部
7*24新情报

手把手踩坑:LoRA微调7B模型,这些坑我帮你趟了

[复制链接]
mtvyo 显示全部楼层 发表于 前天 19:02 |阅读模式 打印 上一主题 下一主题
兄弟们,最近搞了一个LLaMA 7B的LoRA微调项目,从数据清洗到部署上线,踩了三天坑,今天把经验甩出来,省得你们再走弯路。

先说数据。千万别直接用爬来的原始文本,格式必须统一成 `instruction + input + output`,否则微调出来的模型像喝醉了酒。我用的alpaca格式,清洗完丢进transformers,batch size别贪大,4-8就行,显存不够就开gradient checkpointing。

训练参数这块,learning rate我试了1e-4到5e-4,发现1e-4最稳,但收敛慢。LoRA rank设8,alpha设16,效果平衡。记得加warmup steps,大概总steps的10%,不然前几个iteration会炸loss。另外,eval每隔500 steps跑一次,及时发现过拟合。

部署时注意,量化用bitsandbytes,4-bit能压到4GB显存,但推理速度会掉30%。如果对延迟敏感,建议上8-bit。最后,用vLLM做推理加速,吞吐量直接翻倍。

问题抛给你们:实际项目中,你们更倾向用LoRA还是QLoRA?显存和精度之间,怎么取舍?评论区唠唠。
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表