一文带你轻松了解数据挖掘的十大经典算法
一、C4.5
C4.5,是机器学习算法中的分类决策树算法。是决策树的核心算法(决策树是像树一样做决策的节点的组织,但实际上是倒树)ID3的改进算法,所以基本知道一半的决策树构造方法就可以构造. 决策树构造方法其实就是每次都选择一个好的特征和分裂点作为当前节点的分类条件。
二、k-means算法就是K-Means算法
k-means算法是一种聚类算法,将n个对象根据其属性划分为k个分区(k < n)。它类似于处理混合正态分布的期望最大化算法,因为它们都试图找到数据中自然簇的中心。它假设对象属性来自空间向量,目标是最小化每个组内的均方误差之和。
三、 支持向量机
支持向量机,英文为Support Vector Machine,简称SV机。它是一种监督学习方法,广泛用于统计分类和回归分析。支持向量机将向量映射到建立最大边距超平面的更高维空间。两个平行的超平面建立在分离数据的超平面的两侧,分离的超平面使两个平行的超平面之间的距离最大化。
四、Apriori 算法
Apriori算法是挖掘布尔关联规则频繁项集最有影响的算法之一。
它的核心是一种基于两级频率集思想的递归算法。关联规则属于分类中的一维、单层、布尔关联规则。这里将所有支持度大于最小支持度的项集称为频繁项集,简称频率集。
五、期望最大值(EM)算法
在统计计算中,期望最大化 (EM) 算法是一种用于在依赖于不可观察的隐藏变量(潜在变量)的概率模型中找到参数的最大似然估计的算法。最大期望通常用于机器学习和计算机视觉中的数据聚类领域。
六、 页面排名
PageRank 是 Google 算法的重要组成部分。2001 年 9 月,它获得了谷歌创始人之一拉里·佩奇 (Larry Page) 的美国专利。所以,PageRank中的page并不是指网页,而是指Page,也就是这种排名方式是以Page命名的。PageRank 根据其外部和内部链接的数量和质量来衡量网站的价值。PageRank 背后的概念是,一个页面的每个链接都是对该页面的投票,更多的链接意味着更多的其他网站的投票。
七、AdaBoost
Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后将这些弱分类器组合起来形成一个更强的最终分类器(强分类器)。算法本身是通过改变数据分布来实现的。它根据每个训练集中每个样本的分类是否正确以及最后一次整体分类的准确率来确定每个样本的权重。将权重修改后的新数据集送入下级分类器进行训练,最后将每次训练得到的分类器融合在一起作为最终的决策分类器。
八、 kNN:k-最近邻分类
K-最近邻(KNN)分类算法是一种理论上成熟的方法,也是最简单的机器学习算法之一。该方法的思想是:如果特征空间中k个最相似的样本(即特征空间中最近邻)中的大部分属于某个类别,则该样本也属于该类别。
九、 朴素贝叶斯
在众多的分类模型中,使用最广泛的两种分类模型是决策树模型(Decision Tree Model)和朴素贝叶斯模型(NBC)。
朴素贝叶斯模型源于经典数学理论,具有扎实的数学基础,稳定的分类效率。同时,NBC模型需要估计的参数很少,对缺失数据不敏感,算法也比较简单。理论上,与其他分类方法相比,NBC模型的错误率最小。
但情况并非总是如此,因为 NBC 模型假设属性是相互独立的,这在实际应用中往往不成立,这对 NBC 模型的正确分类有一定的影响。当属性数量较多或属性之间的相关性较大时,NBC模型的分类效率不如决策树模型。当属性相关性较小时,NBC 模型的性能最好。
十、 CART:分类和回归树
CART、分类和回归树。分类树下有两个关键思想:第一个是递归划分自变量空间的思想;二是用验证数据剪枝的思路。
观远BI 挖掘数据挖掘平台
观远BI数据挖掘平台 (观远BIMining) 是一个独立的预测分析产品,旨在为企业做出的决策提供预测智能。该平台不仅为用户提供直观的流式建模、拖放操作、精简可视化的建模界面,还提供了大量的数据预处理操作。此外,它还内置了多种实用和经典的机器学习算法。这些算法的简单配置降低了使用机器学习的门槛,大大节省了企业成本,并且支持标准的PMML模型输出,可以发送到观远BI统一平台,与商业智能平台完美结合。
观远BI 挖掘数据挖掘平台支持多种高效实用的机器学习算法,包括分类、回归、聚类、预测、关联五类成熟的机器学习算法。它包含多种可训练模型:逻辑回归、决策树、随机森林、朴素贝叶斯、支持向量机、线性回归、K-means、DBSCAN、高斯混合模型。观远BIMining数据挖掘平台除了提供主要的算法和建模功能外,还提供了必要的数据预处理功能,包括字段拆分、行过滤和映射、列选择、随机采样、过滤空值、合并列、合并行、JOIN、行选择、删除重复值、排序、添加序列号、添加计算字段等。