兄弟们,最近群里聊大模型的不少,但很多人在数据准备这步就翻车了。别以为堆几TB文本就能训出好模型,那是想多了。今天扒一扒几个容易踩的坑。
**1. 去重不是越狠越好**
网上常见做法是SimHash去重,但有些代码库和特定领域的重复文本其实是必要的(比如API文档里“参数说明”这种常用模板)。一刀切会丢失分布特征,模型容易变傻。建议先做领域分类,再针对性地保留或剔除。
**2. 编码问题要人命**
爬虫扒下来的数据经常有乱码、混合编码(比如UTF-8里混GBK)。用fasttext做编码检测后,还得跑一遍正则清理不可见字符。别贪图省事用通用工具,自己写个表针对性过滤更靠谱。
**3. 隐私和偏见标注不能省**
别光顾着清洗质量,个人身份证号、恶意言论这些必须提前过滤。工具推荐用presidio(隐私检测)+ detoxify(毒性检测),跑一遍再入库。
**讨论题**:你们处理大数据集时,是优先保证数据量还是质量?遇到过哪些奇葩数据?评论区聊聊。 |