闲社
标题:
大模型训练数据清洗,别让垃圾数据毁了你几百万的算力
[打印本页]
作者:
kai_va
时间:
5 天前
标题:
大模型训练数据清洗,别让垃圾数据毁了你几百万的算力
兄弟们,最近跟几个做模型的朋友聊天,发现很多人还在“喂数据”阶段翻车。今天就聊聊训练数据准备那些事儿,说透了就是三个字:干净、多样、对齐。
先说数据清洗。别以为从网上爬点文本就完事,重复数据、噪声符号、低质量内容会让模型学歪。建议先做去重(MinHash/LSH)、过滤低质量文本(用规则或小模型打分)、处理符号乱码。这一步省了,后面微调直接炸。
再说数据多样性。光是堆量没用,得覆盖不同领域、语言风格、任务类型。比如对话数据里,要混进代码、医学、法律等垂直场景的样本,不然模型只会扯淡,不会干活。数据配比也很关键,别让某个领域撑死,其他饿死。
最后是数据对齐。这步最容易被忽视。训练数据要与最终部署场景对齐。你要做客服模型,就别只喂论文摘要;要做代码助手,光有GitHub commit不够,还得有注释、文档、对话。不然模型上线后,就是一本正经地胡说八道。
抛个问题:你们在项目中遇到过最离谱的数据质量问题是什么?欢迎来吐槽,我踩过的坑比你们想象的多。
欢迎光临 闲社 (https://www.xianshe.com/)
Powered by Discuz! X5.0