时间:2024-06-19 04:01:30
数据预处理三个部分
数据预处理主要包括以下三个部分:
1. 数据清理:包括处理缺失值、去除噪声和识别离群点。可以使用全局常量填写、同一类的均值或众数填充默认值、回归基于推理的工具或决策树归纳的值来代替缺失值。噪声数据可以通过分箱、聚类和回归等方法进行平滑处理。
2. 数据集成:将两个或多个数据源中的数据存放在一个一致的数据存储设备中。在数据集成过程中,需要处理模式匹配、数据冗余和数据值冲突检测与解决等问题。
3. 数据变换:包括平滑、聚集、数据泛化和规范化等操作。平滑方法有分箱、回归和聚类等算法。聚集用来为多粒度数据分析构建数据立方体。数据泛化使用概念分层,用高层概念替换低层或原始数据。规范化将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0-1.0或0.0-1.0。