数据挖掘就是从庞大的数据库中抽取转换分析一些潜在规律和价值,从中获取决策的关键信息和有用知识。分析方法是数据挖掘的核心工作,通过科学可靠的算法才能实现数据的挖掘,找出数据中潜在的规律。
不同的分析方法将解决不同类型的问题,在现实中针对不同的分析目标,找出相对应的方法常用的分析方法聚类分析聚类分析就是将物理或抽象对象的进行分组,然后组成为由类似或相似的对象组成的多个分类的分析过程,。
这不同于分类,因为它无法获知对象的属性。物以类聚,人以群分,通过聚类来分析事物之间类聚的潜在规律。聚类分析广泛运用于心理学统计学,注浆管生物学市场销售数据识别机器智能学等领域。聚类分析根据隶属度的取值范围可分为硬聚类和模糊聚类两种方法。
硬聚类就是将对象划分到距离聚类的类,非此即彼,也就是说属于一类,就必然不属于另一类。模糊聚类就是根据隶属度的取值范围的大小差异来划分类,一个样本可能属于多个类。常见的聚类算法主要有密度聚类算法层次格聚类算法模型聚类算法等分类和分类和数值是问题的两种主要类型。
分类是分类离散无序的标 ,面则是建立连续值函数模型。分类是数据挖掘的重要基础,它针对已知的训练数据集出来的特性,每个类别的描述或属性来构造相应的分类器或者分类。分类是一种有的学过程,它是根据训练数据集发现准确描述来划分类别的。