欢迎来到百文图书馆!包月下载,不限IP,随心所欲!

数据挖掘

数据挖掘(Data Mining,就是从海量的数据中挖掘出隐含在其中的宝藏一一知识,数据挖掘概念分为广义数据挖掘和狭义数据挖掘.

    广义的数据挖掘在一般情况下被称为数据库中的知识发现,简称知识发现(KDD)。它是从海量的、不完整的、有噪声的、随机的和模糊的数据中提取隐含在其中的、之前不了解、但又是可信的、有价值和潜在的信息和知识的整个过程。这个概念包括以下含义:

      (1)能当作数据挖掘的数据源,数据是必然是海量的,却是含有噪声。数据指的是一个用来描述事物有关方面信息的相关事实的集合。

      (2)挖掘出来的模式是易于描述的、可以理解的并且是有用的。

      (3)通过数据挖掘发现的知识一定是用户感兴趣的。

      (4)通过数据挖掘发现的知识既不是世界皆知的真理,也不是要去发现新的科学原理和公式,更不是什么定理证明。数据挖掘所发现的知识是有特定条件约束的,是相对的,面向特定领域的。

    狭义的数据挖掘是一个利用各种分析工具在海量数据中发现模型和数据之间关系的过程,相对完整的知识发现过程而言,仅仅是其中的一个步骤而己。

    作为一种数据处理和分析的方法,数据挖掘是在没有明确假设的前提下去挖掘信息、发现知识,发现那些不能靠直觉发现的信息或知识。数据挖掘所得到的信息应具有预先未知、有效和实用三个特征。这是数据挖掘与传统的数据分析(比如报表、查询、联机应用分析)的根本区别。

    从数据中发现模式是数据挖掘的任务。模式有很多种,按功能可分为两大类:一类是可以根据简洁概述的数据项的值精确预测某种结果的预测型模式,另一类是应用特定方法分析所提供数据集以获得一个或一组数据模型,用来预测出新数据的有关性质的描述型(Descriptive)模式。挖掘预测型模式所使用的数据也都是可以明确知道结果的。例如,可以根据现在己有的动物的物种分类方式建立一个模式:凡是同时具有羽毛、两足、恒温和卵生殖这几种特征的脊椎动物的动物都是鸟类。当有新的动物样本被发现时,就可以根据这个模式来判别此新物种是否是鸟类。描述型模式是对数据中存在的规则做一种描述,或者根据数据的相似性把数据分组.