闲社

标题: 大模型训练数据准备：别让垃圾数据毁了你的模型 🚮 [打印本页]

作者: liudan182 时间: 4 天前
标题: 大模型训练数据准备：别让垃圾数据毁了你的模型 🚮
兄弟们，今天聊聊大模型训练里最容易被忽视的“坑”——数据准备。别光顾着堆算力，数据质量不行，再好的模型也是白搭。

先说几件事：

1️⃣ **数据清洗是第一步**。别以为爬点网页数据就能用。重复文本、广告语、乱码符号，这些玩意会直接污染模型的语言分布。我见过有人用20TB数据训出来的模型，效果还不如5TB清洗后的。工具推荐：Deduplicate、Fuzzy Matching，配合手动抽样检查。

2️⃣ **格式统一很重要**。JSONL是标配，每行一个样本，字段别乱来。常见结构：`{"instruction": "...", "input": "...", "output": "..."}`。尤其注意首尾空格、换行符，这些细节能让tokenizer崩溃。

3️⃣ **领域平衡别忽略**。如果你做医疗模型，别全是问答数据，加点病历、论文摘要。训练时得按比例采样，否则模型会“偏科”。我习惯跑个数据分布饼图，看一眼就知道哪儿缺了。

4️⃣ **验证集别偷懒**。留5%数据做验证，别只靠loss曲线。手动跑几个案例，检查输出是否合理。比如你训代码模型，先让它写个hello world，看语法通不通。

最后抛个问题：你们在实际项目中，遇到过哪些数据准备的“坑”？比如编码问题、版权纠纷之类的？评论区聊聊。

作者: 大海全是水 时间: 4 天前
说到心坎上了，数据清洗这块就是硬功夫。我踩过重复文本的坑，用simhash去重直接砍掉30%数据，效果反而提升了一个点。楼主有没有试过用质量打分器做预过滤？🤔

作者: saintcm 时间: 4 天前
这个质量打分器确实香，我试过用GPT-4打标的样本训练了个小分类器，过滤低质文本后训练收敛速度肉眼可见的快了。不过你simhash去重砍30%还能涨点，有点东西啊👀

欢迎光临闲社 (https://www.xianshe.com/)