一文带你搞懂常用的13种数据挖掘技术
数据挖掘是从大量不完整、嘈杂、模糊和随机的数据中提取隐藏的、未知的但可能有用的信息和知识的过程。数据挖掘的任务是从数据集中发现模式。可以找到的模式有很多,按其功能可以分为两类:预测模式和描述模式。在应用中,常根据模型的实际作用细分为以下几类:分类、估值、预测、相关分析、序列、时间序列、描述和可视化等。
数据挖掘涉及的学科领域和技术很多,分类法也多种多样。根据挖掘任务可分为分类或预测模型发现、数据汇总、聚类、关联规则发现、顺序模式发现、依赖或依赖模型发现、异常和趋势发现等;按挖掘对象分为关系数据库、面向对象数据库、空间数据库、时态数据库、文本数据源、多媒体数据库、异构数据库、遗产数据库和万维网;按挖掘方法大致可分为:机器学习方法、统计方法、神经网络方法和数据库方法。在机器学习中可以细分为:归纳学习方法(决策树、规则归纳等)。)、基于实例的学习、遗传算法等。在统计方法中又可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、Fisher判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)等)、探索性分析(主成分分析、相关分析等)。在神经网络方法中又可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。维度数据分析或OLAP方法,此外还有面向属性的归纳方法等。可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、Fisher判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)等)、探索性分析(主成分分析、相关分析等)。在神经网络方法中又可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。维度数据分析或OLAP方法,此外还有面向属性的归纳方法等。可细分为:回归分析(多元回归、自回归等)、判别分析(贝叶斯判别、Fisher判别、非参数判别等)、聚类分析(系统聚类、动态聚类等)等)、探索性分析(主成分分析、相关分析等)。在神经网络方法中又可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。维度数据分析或OLAP方法,此外还有面向属性的归纳方法等。非参数判别等)、聚类分析(系统聚类、动态聚类等)等)、探索性分析(主成分分析、相关分析等)。在神经网络方法中又可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。维度数据分析或OLAP方法,此外还有面向属性的归纳方法等。非参数判别等)、聚类分析(系统聚类、动态聚类等)等)、探索性分析(主成分分析、相关分析等)。在神经网络方法中又可细分为:前向神经网络(BP算法等)、自组织神经网络(自组织特征映射、竞争学习等)等。维度数据分析或OLAP方法,此外还有面向属性的归纳方法等。
数据挖掘的技术有很多种,根据不同的分类有不同的分类法。下面重点介绍一些数据挖掘中常用的技术:统计技术、关联规则、基于历史的分析、遗传算法、聚类检测、连接分析、决策树、神经网络、粗糙集、模糊集、回归分析、差分分析、 13种常用的数据挖掘技术,如概念描述。
1、统计技术
数据挖掘涉及许多科学领域和技术,例如统计技术。通过统计技术进行数据挖掘的主要思想是:统计方法对给定的数据集假设一个分布或概率模型(如正态分布),然后根据该模型使用相应的方法进行挖掘。
2、关联规则
数据关联是数据库中存在的一类重要的可发现知识。如果两个或多个变量的值之间存在某种规律性,则称为关联。关联可以分为简单关联、时间关联和因果关联。关联分析的目的是找出数据库中隐藏的关联。有时数据库中数据的关联函数是未知的,即使已知也不确定,因此关联分析生成的规则具有可信度。
3、基于历史的MBR(基于记忆的推理)分析
根据经验知识找到类似的情况,然后将这些情况的信息应用于当前示例。这就是MBR(基于记忆的推理)的精髓。MBR 首先找到与新记录相似的邻居,然后使用这些邻居对新数据进行分类和评估。使用 MBR 存在三个主要问题,即查找确定性历史数据;决定表示历史数据的最有效方式;决定距离函数、联合函数和邻居的数量。
4、遗传算法GA(遗传算法)
以进化论为基础,采用遗传组合、遗传变异、自然选择等优化技术设计方法。主要思想是:根据优胜劣汰的原则,组成一个由当前组中最合适的规则以及这些规则的后代组成的新组。通常,规则的适应度是通过其在训练样本集上的分类准确度来评估的。
5、聚合检测
将一组物理或抽象对象分组为相似对象类的过程称为聚类。聚类产生的簇是数据对象的集合,这些数据对象与同一簇中的对象相似,而与其他簇中的对象不同。相异程度是根据被描述对象的属值来计算的,距离是常用的度量。
6、连接分析
链接分析,Link analysis,其基本理论是图论。图论的思想是找到一个算法,可以给出好的但不完美的结果,而不是一个算法找到一个完美的解决方案。连通性分析使用的思想是,如果不完美的结果是可行的,那么这样的分析就是一个好的分析。使用连通性分析,可以从一些用户的行为中分析出一些模式;而由此产生的概念可以应用于更广泛的用户群体。
7、决策树
决策树提供了一种显示规则的方法,例如在什么条件下获得什么值。
8、神经网络
在结构上,神经网络可以分为输入层、输出层和隐藏层。输入层的每个节点对应一个预测变量。输出层的节点对应目标变量,可以有多个。输入层和输出层之间是隐藏层(对神经网络的用户不可见),隐藏层的层数和每层的节点数决定了神经网络的复杂度。
除了输入层的节点外,神经网络的每个节点都与它前面的许多节点相连(称为该节点的输入节点),每个连接对应一个权重Wxy,传递这个节点的值通过其所有输入节点。的值与对应的连接权重的乘积之和作为函数的输入,我们称之为活动函数或挤压函数。
9、粗糙集
粗糙集理论基于在给定训练数据中建立等价类。构成等价类的所有数据样本都是不分青红皂白的,也就是说,它们对于描述数据的属性是等价的。给定真实世界的数据,通常存在无法通过可用属性区分的类。粗糙集用于近似或粗略定义这些类。
10、模糊集
模糊集理论将模糊逻辑引入数据挖掘分类系统,允许定义“模糊”域值或边界。模糊逻辑使用 0.0 和 1.0 之间的真值来表示特定值是给定成员的程度,而不是使用类或集合的精确截断。模糊逻辑为高级抽象处理提供了便利。
11、回归分析
回归分析分为线性回归、多元回归和非线性回归。在线性回归中,数据用直线建模,多元回归是线性回归的扩展,涉及多个预测变量。非线性回归是在基本线性模型中加入多项式项,形成非线性同源模型。
12、微分分析
差异分析的目的是试图发现数据中的异常情况,例如噪声数据和欺诈数据等异常数据,从而获得有用的信息。
13、概念说明
概念描述是描述某一类对象的内涵,概括该类对象的相关特征。概念描述分为特征描述和区别描述。前者描述了某一类对象的共同特征,后者描述了不同类对象之间的差异。一个类的特征描述只涉及该对象类中所有对象的共性。
由于迫切需要将数据库和其他信息库中存在的数据转化为有用的知识,数据挖掘被认为是一个新的、非常重要、有前途和具有挑战性的研究领域,应该受到许多研究人员的广泛关注。学科(如数据库、人工智能、统计学、数据仓库、在线分析处理、专家系统、数据可视化、机器学习、信息检索、神经网络、模式识别、高性能计算机等)。
数据挖掘作为一门新兴学科,是由以上学科交叉融合形成的。随着数据挖掘的进一步发展,必然会给用户带来更大的收益。
在不久的将来,多元智能时代一定会走进我们的生活。有兴趣进入未来前沿产业的朋友,可以搜集多元智能时代,及时获取人工智能、大数据、云计算、物联网的前沿信息和基础。知识,让我们共同引领人工智能的未来。
观远BI 数据挖掘平台
观远BI 数据挖掘平台 (观远BI Mining) 是用于预测分析的独立产品,旨在为企业做出的决策提供预测智能。该平台不仅为用户提供直观的流式建模、拖放操作、精简可视化的建模界面,还提供了大量的数据预处理操作。此外,它还内置了多种实用和经典的机器学习算法。这些算法的简单配置降低了使用机器学习的门槛,大大节省了企业成本,并且支持标准的PMML模型输出,可以发送到观远BI统一平台,与商业智能平台完美结合。
观远BI 挖掘数据挖掘平台支持多种高效实用的机器学习算法,包括分类、回归、聚类、预测、关联五类成熟的机器学习算法。它包含多种可训练模型:逻辑回归、决策树、随机森林、朴素贝叶斯、支持向量机、线性回归、K-means、DBSCAN、高斯混合模型。观远BIMining数据挖掘平台除了提供主要的算法和建模功能外,还提供了必要的数据预处理功能,包括字段拆分、行过滤和映射、列选择、随机采样、过滤空值、合并列、合并行、JOIN、行选择、删除重复值、排序、添加序列号、添加计算字段等。