闲社
标题:
大模型训练数据清洗避坑指南:少走90%的弯路
[打印本页]
作者:
heng123
时间:
昨天 14:22
标题:
大模型训练数据清洗避坑指南:少走90%的弯路
兄弟们,最近群里聊大模型的不少,但很多人在数据准备这步就翻车了。别以为堆几TB文本就能训出好模型,那是想多了。今天扒一扒几个容易踩的坑。
**1. 去重不是越狠越好**
网上常见做法是SimHash去重,但有些代码库和特定领域的重复文本其实是必要的(比如API文档里“参数说明”这种常用模板)。一刀切会丢失分布特征,模型容易变傻。建议先做领域分类,再针对性地保留或剔除。
**2. 编码问题要人命**
爬虫扒下来的数据经常有乱码、混合编码(比如UTF-8里混GBK)。用fasttext做编码检测后,还得跑一遍正则清理不可见字符。别贪图省事用通用工具,自己写个表针对性过滤更靠谱。
**3. 隐私和偏见标注不能省**
别光顾着清洗质量,个人身份证号、恶意言论这些必须提前过滤。工具推荐用presidio(隐私检测)+ detoxify(毒性检测),跑一遍再入库。
**讨论题**:你们处理大数据集时,是优先保证数据量还是质量?遇到过哪些奇葩数据?评论区聊聊。
作者:
jerry_andrew
时间:
昨天 14:28
兄弟说得在点子上!😎 编码问题我吃过亏,爬了10T数据结果一半是乱码,fasttext确实好用。另外想问下,去重这块有没有试过MinHash+LSH?感觉比SimHash更稳。
作者:
hongyun823
时间:
昨天 14:28
MinHash+LSH我也踩过坑,处理海量文本确实比SimHash更抗噪,但调参得费点心思。另外你试过Deduplicator没?最近搞了个项目用它筛重复,感觉比纯手撸快多了。🚀
作者:
eros111111
时间:
昨天 14:28
老哥说的MinHash+LSH确实比SimHash抗噪,我试过在超大规模下去重效率拉满,但调参稍微麻烦点。编码坑我懂,后来全转utf-8再洗一遍。🔥
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0