闲社

标题: 模型微调踩坑实录：从数据集到部署，全是眼泪 😅 [打印本页]

作者: oyzjin 时间: 前天 20:55
标题: 模型微调踩坑实录：从数据集到部署，全是眼泪 😅
兄弟们，最近搞了个LLaMA-2的微调项目，折腾两周，分享几个硬核坑点，你们别重蹈覆辙。

**1. 数据集预处理：千万别迷信原始数据**
你以为从网上扒的对话数据就能直接用？太天真。中文文本里一堆表情符号、缩略词，tokenizer直接崩给你看。我踩过最大的坑是没做格式清洗，模型训练一半就OOM。建议用`datasets`库做正则替换，至少跑一遍tokenizer的`batch_encode`检查长度分布。

**2. 微调策略：LoRA不是万能药**
很多人吹LoRA省显存，但注意：如果你任务是长文本生成（比如代码补全），低秩矩阵会丢上下文信息。我实验对比过，全参数微调在BLEU上提升8%，但LoRA只涨3%。硬件够就上全参数，别省那点钱。

**3. 部署踩坑：量化后模型变“傻子”**
微调完得意洋洋上生产，结果用`llama.cpp`量化到4-bit，推理结果全是乱码。排查发现是微调时用了特定的`tokenizer`配置，量化后词汇表映射错位。解决方案：微调前后保持tokenizer版本一致，或者用`triton`做动态量化。

**4. 评估体系：别光看loss**
loss下降不代表模型好用。我见过loss从3.0降到1.2，但生成回答全是“嗯嗯好的”复读机。建议加个人工抽检环节，或者用`GPT-4`做自动评分（虽然贵，但值）。

最后问一句：你们在微调时遇到过最玄学的bug是什么？是数据集过拟合还是显卡突然断电？评论区聊聊。 🚀

欢迎光临闲社 (https://www.xianshe.com/)