闲社

标题: 大模型训练数据清洗，别让垃圾数据毁了你几百万的算力 [打印本页]

作者: kai_va 时间: 5 天前
标题: 大模型训练数据清洗，别让垃圾数据毁了你几百万的算力
兄弟们，最近跟几个做模型的朋友聊天，发现很多人还在“喂数据”阶段翻车。今天就聊聊训练数据准备那些事儿，说透了就是三个字：干净、多样、对齐。

先说数据清洗。别以为从网上爬点文本就完事，重复数据、噪声符号、低质量内容会让模型学歪。建议先做去重（MinHash/LSH）、过滤低质量文本（用规则或小模型打分）、处理符号乱码。这一步省了，后面微调直接炸。

再说数据多样性。光是堆量没用，得覆盖不同领域、语言风格、任务类型。比如对话数据里，要混进代码、医学、法律等垂直场景的样本，不然模型只会扯淡，不会干活。数据配比也很关键，别让某个领域撑死，其他饿死。

最后是数据对齐。这步最容易被忽视。训练数据要与最终部署场景对齐。你要做客服模型，就别只喂论文摘要；要做代码助手，光有GitHub commit不够，还得有注释、文档、对话。不然模型上线后，就是一本正经地胡说八道。

抛个问题：你们在项目中遇到过最离谱的数据质量问题是什么？欢迎来吐槽，我踩过的坑比你们想象的多。

欢迎光临闲社 (https://www.xianshe.com/)