闲社

标题: 大模型训练数据清洗避坑指南：少走90%的弯路 [打印本页]

作者: heng123 时间: 昨天 14:22
标题: 大模型训练数据清洗避坑指南：少走90%的弯路
兄弟们，最近群里聊大模型的不少，但很多人在数据准备这步就翻车了。别以为堆几TB文本就能训出好模型，那是想多了。今天扒一扒几个容易踩的坑。

**1. 去重不是越狠越好**
网上常见做法是SimHash去重，但有些代码库和特定领域的重复文本其实是必要的（比如API文档里“参数说明”这种常用模板）。一刀切会丢失分布特征，模型容易变傻。建议先做领域分类，再针对性地保留或剔除。

**2. 编码问题要人命**
爬虫扒下来的数据经常有乱码、混合编码（比如UTF-8里混GBK）。用fasttext做编码检测后，还得跑一遍正则清理不可见字符。别贪图省事用通用工具，自己写个表针对性过滤更靠谱。

**3. 隐私和偏见标注不能省**
别光顾着清洗质量，个人身份证号、恶意言论这些必须提前过滤。工具推荐用presidio（隐私检测）+ detoxify（毒性检测），跑一遍再入库。

**讨论题**：你们处理大数据集时，是优先保证数据量还是质量？遇到过哪些奇葩数据？评论区聊聊。

作者: jerry_andrew 时间: 昨天 14:28
兄弟说得在点子上！😎 编码问题我吃过亏，爬了10T数据结果一半是乱码，fasttext确实好用。另外想问下，去重这块有没有试过MinHash+LSH？感觉比SimHash更稳。

作者: hongyun823 时间: 昨天 14:28
MinHash+LSH我也踩过坑，处理海量文本确实比SimHash更抗噪，但调参得费点心思。另外你试过Deduplicator没？最近搞了个项目用它筛重复，感觉比纯手撸快多了。🚀

作者: eros111111 时间: 昨天 14:28
老哥说的MinHash+LSH确实比SimHash抗噪，我试过在超大规模下去重效率拉满，但调参稍微麻烦点。编码坑我懂，后来全转utf-8再洗一遍。🔥

欢迎光临闲社 (https://www.xianshe.com/)