欢迎来到百文图书馆!包月下载,不限IP,随心所欲!

数据预处理

数据预处理是一项很重要的工作,实现对数据收集层所采集的原数据进行处理。据统计,数据准备所花费的时间和成本占数据挖掘全过程据统60%80%左右,其余的工作大约占20%40% 。没有高质量的数据,没有高质量的挖掘结果。所以后面的数据挖掘是否成功的关键因素在于前期的数据预处理。在本文中数据数据预处理主要包括数据清理和数据归约这两个过程。

    数据清理是对收集到的数据源进行加工处理,纠正错误的数据,清除异常和重复的数据,最终得到有着标准化格式的数据。因为现实世界的原始数据都是“杂乱的”,可能会出现不完整、含有噪声或者不一致等情况,因此需要从各种数据源中去选择挖掘出所需要的数据组成目标数据,对有问题的数据做相应的处理,比如填写空缺的值、平滑噪声数据、识别删除孤立点、解决不一致性等等,使之转化为标准的结构化数据,并对目标数据进行统一的存储。

    数据归约是数据预处理的一个重要的环节,用于帮助从原有庞大的数据集中获得一个精简数据集,并使得这一精简数据集仍然接近于保持原数据的完整性,使得挖掘的效率更高,得到的结果与归约前结果相同或几乎相同。但是应当注意的是,用于归约的时间不应当超过“抵消”在归约后的数据上挖掘节省的时间。