关于数据挖掘你想了解的都在这
随着计算机技术的革新和网络媒体的飞速发展,人们的生活和企业发展进入了高速信息数字化时代。在日常生活和生产中会产生大量的数据,如交通、网络、文字、方位等,但人们很少意识到这些丰富的数据中隐藏着有价值的信息。
什么是数据挖掘?
2009年,谷歌基于人们的搜索历史等大数据成功预测了甲型H1N1流感的爆发。
2014年,百度利用球队表现、庄家赔率等大数据成功预测了2014年世界杯(从淘汰赛到决赛)。
从技术角度看,数据挖掘是指在实际数据中使用大量不完整、随机的应用,进而提取出潜在的、有价值的信息。从业务的角度来看,是指从业务数据库中提取、转换、分析大量业务数据等关键信息,辅助业务决策。
简而言之:大数据挖掘是发现隐藏在数据中的有价值信息,受到科学信息、数据库技术、统计学、机器学习、可视化等学科的影响。
数据挖掘的建模过程
1. 定义挖矿目标
按照以下步骤确定采矿目标
(1)需求的背景是什么?
(2)客户的痛点是什么
(3)映射到挖矿,要实现什么功能?
例如,在银行流失的情况下:
背景:客户是银行业务发展的重点,客户流失问题已成为整个行业亟待解决的问题。
痛点:传统方式是依靠人工体验来判断客户是否会流失。存在主观滞后。解决问题的关键是提高客户流失的可预测性。
挖掘功能:通过历史客户数据,建立预测模型,对超过一定阈值的客户发出预警信息,提前采取留存措施。
2. 数据收集
数据探索是指通过绘制图形和计算某些特征来分析样本数据集的结构和分布特征的过程。这一步有助于选择合适的数据预处理和数据分析技术,是数据建模的基础。比如数据探索发现数据是稀疏的,建模的时候选择一个对稀疏数据支持比较好的分析方案。
数据质量分析:检查原始数据是否脏。例如缺失值、异常值、不一致的值、重复数据、带有特殊符号的数据等。
数据特征分析:展示数据分布、数据对比分析、统计分析、正态性检验、相关性分析。
4.数据预处理
数据预处理是将不规则的业务数据组织成相对规则的建模数据,数据的好坏决定了模型输出的结果。
数据清洗:去除噪音和不相关的数据。
数据转换:将原始数据转换为适合数据挖掘的形式。
数据集成:将来自多个数据源的数据组合到一致的数据存储中。
数据归约:降维、数据压缩、数据离散化、数据归一化等。