观远BI带你解密数据挖掘平台
一、什么是数据挖掘
数据挖掘就是从大量的数据中寻找有用的信息,然后根据这些信息辅助决策。这听起来像传统的数据分析吗?事实上,数据挖掘就是智能数据分析,它们的目标是一致的。但是,有很大的不同。传统数据分析与数据挖掘的主要区别在于揭示数据之间的关系。传统的数据分析揭示已知的、过去的数据关系,而数据挖掘揭示未知的、未来的数据关系。他们使用的技术也不同。传统的数据分析使用计算机技术,而数据挖掘不仅使用计算机技术,还涉及统计、模型算法等技术,相对复杂。因为数据挖掘发现了未来的信息,最重要的是使用它:预测!预测公司未来的销售额,预测产品的未来价格等等。
二、数据挖掘过程
数据挖掘有一套标准的流程,可以对数据进行各种科学的处理和预测,从而发现数据本身的隐藏规律。具体流程如下:
第一步:业务理解。明确的目标和清晰的需求分析。
第 2 步:数据准备。收集原始数据,验证数据质量,整合数据,格式化数据。
第 3 步:构建模型。选择建模技术、调整参数、生成测试计划、构建模型。
第 4 步:评估模型。对模型进行综合评估,评估结果,审查过程。
三、算法介绍
数据挖掘全过程的关键是模型的迭代优化过程,如图观远BI挖掘使用的模型算法有分类算法、回归算法、聚类算法等,每种算法类型都包含一个各种不同的算法,例如分类算法包括逻辑回归、朴素贝叶斯、决策树等。
下面将一一为大家介绍。
(一)Logistic Regression:机器学习从统计领域借用的另一种技术。这是一种专门针对二元分类问题(具有两个类值的问题)的方法。
逻辑回归类似于线性回归,两者的目标都是找到每个输入变量的权重值。与线性回归不同,输出预测值得使用称为逻辑函数的非线性函数进行转换。
逻辑函数看起来像一个大 S,可以将任何值转换为 0 到 1 的范围。这很有用,因为我们可以将相应的规则应用于逻辑函数的输出,将值分类为 0 和 1(例如,如果IF小于0.5,则输出1)并预测类值。
由于模型学习的特殊方式,逻辑回归做出的预测也可用于计算属于 0 类或 1 类的概率。这对于需要大量理由的问题很有用。与线性回归一样,当您删除与输出变量无关的属性和彼此非常相似(相关)的属性时,逻辑回归的效果会更好。这是一个快速学习并有效处理二进制分类问题的模型。
(二)朴素贝叶斯:朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的分类方法。
朴素贝叶斯是一种简单但极其强大的预测建模算法。之所以称为朴素贝叶斯分类,是因为这种方法的思想真的很简单。朴素贝叶斯的基本思想是:对于一个给定的待分类项目,求在该项目出现的条件下,每个类别出现的概率,取大者认为该待分类项目属于哪个类别.
该模型由两种类型的概率组成,可以直接从您的训练数据中计算得出:1)每个类别的概率;2)给定每个 x 值的类的条件概率。计算后,概率模型可用于使用贝叶斯定理对新数据进行预测。当您的数据是数值时,通常假设为高斯分布(钟形曲线),以便可以轻松估计这些概率。
(三)支持向量机:支持向量机(SVM)是一类广义线性分类器,根据监督学习对数据进行二元分类。支持向量机可能是最流行和讨论最多的机器学习算法之一其决策边界是求解学习样本的最大边距超平面。
超平面是分割输入变量空间的线。在 SVM 中,选择一个超平面来按类(0 类或 1 类)将输入变量空间中的点分开。它可以看作是二维空间中的一条线,通过它可以完全分离所有输入点。SVM 学习算法就是要找到给超平面最佳分类的系数。
超平面与最近数据点的距离称为边界,边界最大的超平面是最佳选择。同时,只有相互接近的数据点才与超平面的定义和分类器的构建有关。这些点称为支持向量,它们支持或定义超平面。在实践中,我们使用优化算法来找到最大化边界的系数值。
SVM 可能是最强大的开箱即用分类器之一,值得一试您的数据集。
(四)Decision Tree:决策树)是根据已知的各种情况发生的概率,通过形成决策树得到净现值的期望值大于等于零的概率,评估项目风险,判断其可行性决策分析方法是一种直观地使用概率分析的图形方法。因为这个决策分支像树的分支一样绘制成图形,所以称为决策树。
在机器学习中,决策树是一种预测模型,表示对象属性和对象值之间的映射关系。熵 = 系统的杂乱程度,使用算法 ID3,C4.5 和 C5.0 生成树算法使用熵。该度量基于信息学理论中的熵概念。
决策树是一种树结构,其中每个内部节点代表一个属性的测试,每个分支代表一个测试输出,每个叶节点代表一个类别。
分类树(decision tree)是一种很常见的分类方法。它是一种监督学习。所谓监督学习,就是给一堆样本,每个样本都有一组属性和一个类别,这些类别是事先确定好的,然后通过学习得到一个分类器,这个分类器可以给对象正确的分类. 这种机器学习称为监督学习。
(五)随机森林:随机森林是指使用多棵树来训练和预测样本的分类器。
在机器学习中,随机森林是由多棵决策树组成的分类器,其输出的类由各个树输出的类的模式决定。
随机森林是最流行和最强大的机器学习算法之一。它是一种集成机器学习算法,称为 Bootstrap Aggregation 或 Bagging。
Bootstrap 是一种强大的统计方法,用于从数据样本中估计数量,例如平均值。它需要大量数据样本,计算平均值,然后对所有平均值进行平均以更准确地估计真实平均值。
bagging 中使用了相同的方法,但大多数情况下使用决策树而不是估计整个统计模型。它对训练数据进行多重采样,然后为每个数据样本构建一个模型。当您需要对新数据进行预测时,每个模型都会进行预测,并对预测进行平均以获得对真实输出值的更好估计。
随机森林是对决策树的一种调整,通过引入随机性而不是选择最佳分割点来实现次优分割。因此,为每个数据样本创建的模型将更加多样化,但在它们自己的意义上仍然是准确的。结合预测结果可以更好地估计出正确的潜在输出值。
如果您使用高方差算法(如决策树)获得了良好的结果,那么添加此算法效果会更好。
(六)线性回归:线性回归是在数理统计中利用回归分析来确定两个或多个变量之间相互依赖的定量关系的一种统计分析方法。应用广泛。在回归分析中,只包括一个自变量和一个因变量,而两者之间的关系可以用一条直线来近似,这种回归分析称为单变量线性回归分析。如果回归分析包括两个或多个自变量,且因变量与自变量之间的关系,称为多元线性回归分析。
单变量线性回归由一个方程表示,该方程通过找到输入变量的特定权重 (B) 来描述输入变量 (x) 和输出变量 (y) 之间的线性关系。示例:y = B0 + B1* x。给定一个输入x,我们将预测y,线性回归学习算法的目标是找到系数B0和B1的值。
线性回归已经存在了 200 多年,并得到了广泛的研究。如果可能,使用此技术时的一些经验法则是删除非常相似(相关)的变量并从数据中删除噪声。
(七)K-means:K-means聚类算法随机选择K个对象作为初始聚类中心。然后计算每个对象到每个种子聚类中心的距离,将每个对象分配到距离最近的聚类中心簇中心和分配给它们的对象代表一个簇,一旦所有对象都分配完毕,每个簇的簇中心根据簇中已有的对象重新计算,这个过程不断重复,直到达到某个终止条件终止条件可以是没有(或最小数量)对象被重新分配到不同的簇,没有(或最小数量)簇中心再次发生变化,误差平方和局部最小值。
聚类是将数据集组织成在某些方面相似的类别的过程。聚类是一种发现这种固有结构的技术。聚类技术通常被称为无监督学习。
K-means 聚类是最著名的分区聚类算法,其简单性和高效性使其成为所有聚类算法中应用最广泛的算法。给定一组数据点和所需的簇数 k,其中 k 由用户指定,k-means 算法根据一定的距离函数将数据重复划分为 k 个簇。
(八)高斯混合模型:高斯混合模型是利用高斯概率密度函数(正态分布曲线)对事物进行精确量化,是将事物分解成若干个高斯概率密度函数(正态分布曲线)的模型形成的估计模型是几个高斯模型的加权和(具体来说,模型训练前必须建立几个)每个高斯模型代表一个类(一个Cluster),在几个高斯模型上投影会得到每个类的概率。然后我们可以选择概率最高的类作为决策结果。
(九)DBSCAN:DBSCAN(Density-Based Spatial Clustering of Applications with Noise)是一种具有代表性的基于密度的聚类算法。与分区和层次聚类方法不同,它将聚类定义为密度连通的最大点集,可以将具有足够高密度的区域划分为簇,并且可以在嘈杂的空间数据库中找到任意形状的簇。
同一类别的样本是紧密相连的,也就是说,在离该类别的任何样本不远的地方一定有同一类别的样本。通过将紧密连接的样本分组到一个类中,得到一个聚类类。通过将所有紧密连接的样本组划分为不同的类别,我们得到所有聚类类别的最终结果。
看了上面这么多算法,是不是觉得很专业很复杂?
数据挖掘真的那么难吗?今天给大家推荐一款好用的工具——观远BIMining,这是观远BI推出的独立产品,旨在为个人、团队和企业的决策提供预测分析。
观远BI 挖掘具有精简可视化的建模界面,内置实用经典的统计挖掘算法和深度学习算法,支持Python扩展算法。基于分布式云计算,模型可以下发到观远BI统一平台,与BI平台完美结合。
操作界面如下:最左边是节点树,里面包含了所有已经开发的节点。中间是主要的实现区域,节点间拖拽即可。右边是节点的参数配置和属性配置。
观远BI 挖掘提供了基于web的可视化界面,数据挖掘过程的每一步都可以通过拖动功能点和配置参数(属性)来实现。只需拖放即可轻松完成预测,非常方便!