系统学习数据清洗流程,处理缺失值、重复项、异常点,并进行特征缩放与编码。
超越均值/中位数填补,学习多重插补、KNN 插补和基于预测模型的迭代填补方法,合理处理不同缺失机制下的数据缺失。
学习利用大模型生成多样化指令数据及实际用户日志的方法,并实施启发式与模型辅助清洗、去重、难度筛选,提升微调效果。