数据集成与转换:
i. 数据集成处理
1.模式集成
2.冗余问题
3.数据值冲突检测与消除
ii.数据转换处理
1.平滑处理: 帮助出去数据中的噪声. 主要方法有: bin方法 聚类方法和回归方法
2.合计处理: 对数据进行总结或合计操作
3.数据泛化处理: 用更抽象的概念来取代低层次或数据层的对象. 如年龄属性映射到更高层次的概念: 如青年 中年 老年
4.规格化: 将数据映射到指定范围中.
5.属性构造: 根据已有属性构造新属性.
数据规格化三种方法:
1.最大最小规格化方法: v'=(v-MIN)*(NEW_MAX-NEW_MIN)/(MAX - MIN) + NEW_MIN;
2.零均值规格化法: v' = (v-A)/σ; A 为属性的均值 σ 为属性的偏差
3.十基数变换规格法:v' = v/10^j; j 为使 |max(v')|<1
的最小值
To be continued.
posted on 2006-03-26 23:30
kinns 阅读(153)
评论(0) 编辑 收藏 引用 所属分类:
Data Mining