数据分析、数据挖掘、数据统计、OLAP 之间的差异是什么?
简单说:数据挖掘就是从海量数据中找到隐藏的规则,数据分析一般要分析的目标比较明确,数据统计则是单纯的使用样本来推断总体。主要区别:“数据分析”的重点是观察数据,“数据挖掘”的重点是从数据中发现“知识规则”KDD(KnowledgeDiscoverinDatabase),数据统计的重点是参数估计和假设检验。“数据分析、数据统计”得出的结论是人的智力活动结果,“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则。“数据分析”需要人工建模,“数据挖掘”自动完成数学建模,“数据统计”则是把模糊估计变得准确而定量。可以通过机器学习自动建立输入与输出的函数关系,根据KDD得出的“规则”,给定一组输入参数,就可以得出一组输出量。举个简单的例子:有一些人总是不及时向电信运营商缴费,如何发现它们?数据分析:通过对附近人口的生活习惯、业余爱好、教育背景、收入分布、家庭组成等进行全方面分析,发现很多人都习惯在收到欠费通知以后再缴费。结论就是提前发放短信提醒。数据挖掘:通过编写机器学习聚类算法发现无法通过观察图表得出的深层次原因。发现家住在五环以外的人,由于居住环境偏远没有时间上营业厅缴费。结论就需要多设立一些营业厅或者自助缴费点。数据统计:通过统计学推理方法组成样本的试验单元进行参数估计和假设检验,我们发现不及时缴钱人群里的贫困人口占82%。所以结论是收入低的人往往会缴费不及时。结论就需要降低资费。
从分析的目的来看,数据分析一般是对历史数据进行统计学上的一些分析,数据挖掘更侧重于机器对未来的预测,一般应用于分类、聚类、推荐、关联规则等。从分析的过程来看,数据分析更侧重于统计学上面的一些方法,经过人的推理演译得到结论;数据挖掘更侧重由机器进行自学习,直接到得到结论。从分析的结果看,数据分析的结果是准确的统计量,而数据挖掘得到的一般是模糊的结果
个人经验来说,实际工作中,数据分析的特点是:对象已经远远不是底层数据;更偏宏观层面,经常需要与事件真实逻辑相互印证,重视与"常识"和"眼见"不一致的地方;要输出论点,整理成ppt,考虑更多的图文表达形式那是常有的.数据挖掘:从最底层干起,没有平台资源解决底层问题一切玩完.底层数据处理成可用算法处理的数据,然后才是引入分词技术词库\写算法建模神马的.最后的输出一般能解决一个具体的问题。数据统计:经常都是别人告知统计目的甚至口径需要非常清楚数据本身和各种工具.
数据统计更多的偏向于数据的处理和计算,可能只是到指标和报表的层面;数据分析需要对数据的变化趋势、比较特征等作出解释,以问题为导向,从数据上去发现问题、分析问题,甚至提出解决问题的方案,一般数据分析需要形成解释性的或结论性的数据报告;数据挖掘更多的是运用算法和模型去发现潜藏在数据深层次的规律,跟数据统计相比数据挖掘的计算和规则更加复杂,需要处理海量数据,对运算的能力要求较高;OLAP是一种数据的展现和观察方式,基于多个维度的交叉细分,能够让分析人员从多个角度、多个层面去观察和理解数据。
我觉得前三个正好是广义数据分析的三个方向:数据分析。专注于中小网站分析优化,网站地图、结构优化,SEO。多使用第三方工具如:开源分析模块(BIRT),CNZZ,GoogleAnalytics(以下简称GA)。通过对网站属性数据(如pv,uv,新用户占比,搜索词,跳出率,蹦失率,访问时长,忠诚度等)的分析,对网站结构、内容进行优化。此方向更偏产品一些,极大的依赖分析经验和对数据的敏感度。数据挖掘。数据挖掘主要是面向决策,从海量数据中挖掘不为人知、无法直观得出的结论。例如内容推荐、相关度计算等。此工作更注重数据内在联系,数据仓库组建,分析系统开发,挖掘算法设计,甚至很多时候要亲力而为的从ETL开始处理原始数据,因此对计算机水平有较高要求。一般广度上不及数据分析,但深度上更为深入。使用工具除海量数据库如Oracle,分布式计算Hadoop,C++,Java,Python等编程语言外,也有可能会用到第三方挖掘工具如Weka。数据统计。专注于建模及统计分析,通过概率、统计、离散等数学知识建立合理模型,充分发掘数据内容。例如用回归分析,充分利用网站历史数据,进行评估、预测、反向预测、发掘因素。利用贝叶斯方法建立模型来进行机器学习、聚类、垃圾邮件过滤等。常用工具如:SAS,R,SPSS。此方向更偏重数学,尤其是统计学。像哈佛数学毕业的Hammerbacher在这方面也很强。数据统计不局限于互联网,像传统行业尤其是医疗、金融等领域中,用处也是极大。而OLAP其实是一个建立数据系统的方法,核心思想就是建立多维度的数据立方体,以维度(Dimension)和度量(Measure)为基本概念,辅以元数据,实现可以钻取、切片、切块、旋转等灵活、系统、直观的数据展现。这种思想可以被以上三种方向借用,像GA就带有这种风格,数据仓库也经常用到此种模式。但由于互联网的数据量较大、维度众多,会导致数据爆炸。因此一般会灵活变通,综合使用。严格使用OLAP的一般都是些制造业、零售业等相对传统的行业,作为BI的延伸,对公司决策提供有力支撑。
回答请先登录