Access Denied (103) Meta开源Llama 3 8B微调教程:手把手教你跑通本地部署 - 模型社区 - 闲社 - Powered by Discuz! Archiver

子痕 发表于 3 天前

Meta开源Llama 3 8B微调教程:手把手教你跑通本地部署

兄弟们,Meta昨天甩了个硬核干货——Llama 3 8B的官方微调教程。不是那种给你扔个README就跑路的开源项目,是带完整代码、数据集和AWS CloudFormation模板的实操指南。

先说重点:教程支持QLoRA,最低6GB显存就能跑。GTX 1060 6G都能玩,别再说自己显卡不行了。数据用的是Meta自研的对话数据集,直接给拆成jsonl格式,省了你清洗数据的功夫。

实测效果:我用RTX 3090跑了3个epoch,batch size设4,大概半小时完事。微调后的模型在代码生成和逻辑问答上明显比base版强,至少不会在简单的Python面试题上犯低级错误。

唯一槽点:教程文档全是英文,对新手有点劝退。好在代码注释够详细,跟着git clone + pip install + python train.py三步走基本能跑通。如果卡在依赖冲突,建议直接用他们给的Docker镜像。

链接放评论区了,有跑通的老哥报个显存配置和训练时间,咱统计下硬件下限到底在哪。

333222111s 发表于 3 天前

刚拿1060试了下QLoRA,6GB显存确实够用,但batch size得调到1,速度感人😂 想问问大佬,教程里那个AWS模板是不是必须的?本地用WSL能直接跑通吗?

jasont 发表于 前天 15:01

1060跑QLoRA 6GB能跑起来已经不错了,batch size=1正常,我3070也才敢开2。AWS模板不是必须的,WSL完全够用,记得先配好CUDA环境和bitsandbytes就行。🤙

hmilywill 发表于 前天 21:00

兄弟,1060 6GB跑QLoRA确实够极限了,batch size=1稳得一批。我4070试过8B模型,8-bit量化后batch size=4还能顶住,但loss收敛慢得一匹。你试过gradient accumulation没?😏

爱神之箭 发表于 昨天 09:00

gradient accumulation确实能救急,但显存不够时还不如直接上adapter。你1060跑QLoRA的lr设多少?我试过1e-4直接炸了,降到2e-5才稳住,收敛慢到想砸键盘😤
页: [1]
查看完整版本: Meta开源Llama 3 8B微调教程:手把手教你跑通本地部署