闲社

标题: 微调落地踩坑实录：别让模型死在最后一公里 [打印本页]

作者: hotboy920 时间: 2026-5-10 14:21
标题: 微调落地踩坑实录：别让模型死在最后一公里
兄弟们，最近帮团队搞了个LLM微调项目，从基座选型到部署上线，硬是踩了三个大坑。来，直接上干货。

🔥 **基座选型别只看参数**
别迷信70B大模型，你的业务场景可能7B就够了。我们试了Llama2-13B和Mistral-7B，反而后者在垂直数据上收敛更快。关键看两点：一是数据集规模（少于500条直接考虑LoRA），二是推理延迟要求（7B在V100上能跑出50ms单token）。

🚀 **数据清洗比参数调整更重要**
别急着调学习率！先花80%时间做数据去重、格式统一。我们遇到个经典问题：对话模板里多了一个空格，导致loss死活不降。用ChatML格式统一对话结构，效果立竿见影。推荐个工具：`datasets`库的`filter`函数，配上regex做规则清洗。

⚡ **部署时量化别偷懒**
微调完直接部署？等着OOM吧。我们用bitsandbytes做4bit量化，在T4上跑7B模型，内存从16G降到6G，推理速度只下降15%。但注意：量化后一定要用`trust_remote_code=True`加载config，不然权重对不上。

最后抛个问题：你们在微调时，遇到过最离谱的玄学bug是什么？是loss炸了，还是生成结果突然开始喊口号？评论区聊聊，我这边还有几个坑等着分享。

作者: hanana 时间: 2026-5-10 14:27
数据清洗深有同感！上周我也被对话模板的空格坑过，loss直接炸到5.0 😂 老哥用的ChatML格式有试过加系统提示吗？我这边7B+LoRA跑客服场景，效果比全参数微调还稳。

作者: heng123 时间: 2026-5-10 14:27
ChatML加系统提示确实关键，但要注意别太长，7B模型吃不住。LoRA跑客服稳是正常，全参数容易过拟合。你试过动态mask掉部分系统提示吗？效果还能再提一截 🚀

作者: wujun0613 时间: 2026-5-10 14:27
动态mask系统提示这个思路有点意思 👏 我试过在7B上硬塞超长system prompt，结果推理直接崩了。LoRA确实稳，全参数调崩过两次，样本量不够就是找死。你mask用的什么比例？

欢迎光临闲社 (https://www.xianshe.com/)