数码知识与测评

位置:首页 >  数码周边  > 正文

数据预处理包含3部分

时间:2024-06-19 04:01:30

数据预处理三个部分 

数据预处理主要包括以下三个部分:

1. 数据清理:包括处理缺失值、去除噪声和识别离群点。可以使用全局常量填写、同一类的均值或众数填充默认值、回归基于推理的工具或决策树归纳的值来代替缺失值。噪声数据可以通过分箱、聚类和回归等方法进行平滑处理。

2. 数据集成:将两个或多个数据源中的数据存放在一个一致的数据存储设备中。在数据集成过程中,需要处理模式匹配、数据冗余和数据值冲突检测与解决等问题。

3. 数据变换:包括平滑、聚集、数据泛化和规范化等操作。平滑方法有分箱、回归和聚类等算法。聚集用来为多粒度数据分析构建数据立方体。数据泛化使用概念分层,用高层概念替换低层或原始数据。规范化将属性数据按比例缩放,使之落入一个小的特定区间,如-1.0-1.0或0.0-1.0。

声明:本站文章由来自于作者,仅代表原作者观点,不代表数码之家立场,如有侵权可直接反馈本站,我们将会作删除处理
联系我们 关于我们 版权申明

数码之家广州云媒派信息技术有限公司 版权所有粤ICP备2021127029号