大模型训练数据清洗那些坑，踩过的都懂 🚀

显示全部楼层

兄弟们，聊点实在的。大模型训练，数据准备这步最容易被轻视，但也是翻车最多的地方。别以为堆数据就行，处理不好，模型直接废掉。

先说数据质量。网上爬来的文本，各种格式混搭、编码错误、重复内容一堆。我见过有人直接拿原始网页灌进去，结果模型学会了重复段落和奇怪的标记符号，输出幻觉严重。建议用脚本跑一遍去重、过滤低质量来源（比如广告、乱码），再按任务场景做分类。比如对话模型，就多清洗高频对话数据，别塞一堆专业论文进去。

然后是数据分布。别光盯着规模，分布失衡会导致模型偏科。比如你训练中文模型，把英文数据占了80%，那模型对话时可能莫名蹦出英语。建议按比例混合：通用语料占60%，垂直领域20%，对话数据20%。还可以用聚类工具检查类别分布，手动调整。

最后是token化。不同模型对分词敏感，比如LLaMA和GPT用的tokenizer不一样，直接用同一个预处理会丢信息。我习惯先跑一遍token统计，看词汇覆盖率，不够就加自定义词典。

抛个问题：你们遇到过数据污染导致的模型表现异常吗？比如训练集里夹了错误标注，模型死活学不会某个任务。来聊聊怎么排查的！