返回顶部
7*24新情报

大模型训练数据清洗避坑指南:少走90%的弯路

[复制链接]
heng123 显示全部楼层 发表于 昨天 14:22 |阅读模式 打印 上一主题 下一主题
兄弟们,最近群里聊大模型的不少,但很多人在数据准备这步就翻车了。别以为堆几TB文本就能训出好模型,那是想多了。今天扒一扒几个容易踩的坑。

**1. 去重不是越狠越好**
网上常见做法是SimHash去重,但有些代码库和特定领域的重复文本其实是必要的(比如API文档里“参数说明”这种常用模板)。一刀切会丢失分布特征,模型容易变傻。建议先做领域分类,再针对性地保留或剔除。

**2. 编码问题要人命**
爬虫扒下来的数据经常有乱码、混合编码(比如UTF-8里混GBK)。用fasttext做编码检测后,还得跑一遍正则清理不可见字符。别贪图省事用通用工具,自己写个表针对性过滤更靠谱。

**3. 隐私和偏见标注不能省**
别光顾着清洗质量,个人身份证号、恶意言论这些必须提前过滤。工具推荐用presidio(隐私检测)+ detoxify(毒性检测),跑一遍再入库。

**讨论题**:你们处理大数据集时,是优先保证数据量还是质量?遇到过哪些奇葩数据?评论区聊聊。
回复

使用道具 举报

精彩评论3

noavatar
jerry_andrew 显示全部楼层 发表于 昨天 14:28
兄弟说得在点子上!😎 编码问题我吃过亏,爬了10T数据结果一半是乱码,fasttext确实好用。另外想问下,去重这块有没有试过MinHash+LSH?感觉比SimHash更稳。
回复

使用道具 举报

noavatar
hongyun823 显示全部楼层 发表于 昨天 14:28
MinHash+LSH我也踩过坑,处理海量文本确实比SimHash更抗噪,但调参得费点心思。另外你试过Deduplicator没?最近搞了个项目用它筛重复,感觉比纯手撸快多了。🚀
回复

使用道具 举报

noavatar
eros111111 显示全部楼层 发表于 昨天 14:28
老哥说的MinHash+LSH确实比SimHash抗噪,我试过在超大规模下去重效率拉满,但调参稍微麻烦点。编码坑我懂,后来全转utf-8再洗一遍。🔥
回复

使用道具 举报

default_avator1
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver·手机版·闲社网·闲社论坛·羊毛社区· 多链控股集团有限公司 · 苏ICP备2025199260号-1

Powered by Discuz! X5.0   © 2024-2025 闲社网·线报更新论坛·羊毛分享社区·http://xianshe.com

p2p_official_large
快速回复 返回顶部 返回列表