大模型训练数据清洗避坑指南：少走90%的弯路

显示全部楼层

兄弟们，最近群里聊大模型的不少，但很多人在数据准备这步就翻车了。别以为堆几TB文本就能训出好模型，那是想多了。今天扒一扒几个容易踩的坑。

**1. 去重不是越狠越好**
网上常见做法是SimHash去重，但有些代码库和特定领域的重复文本其实是必要的（比如API文档里“参数说明”这种常用模板）。一刀切会丢失分布特征，模型容易变傻。建议先做领域分类，再针对性地保留或剔除。

**2. 编码问题要人命**
爬虫扒下来的数据经常有乱码、混合编码（比如UTF-8里混GBK）。用fasttext做编码检测后，还得跑一遍正则清理不可见字符。别贪图省事用通用工具，自己写个表针对性过滤更靠谱。

**3. 隐私和偏见标注不能省**
别光顾着清洗质量，个人身份证号、恶意言论这些必须提前过滤。工具推荐用presidio（隐私检测）+ detoxify（毒性检测），跑一遍再入库。

**讨论题**：你们处理大数据集时，是优先保证数据量还是质量？遇到过哪些奇葩数据？评论区聊聊。