大数据是(shì)指用现有的计算机软(ruǎn)硬件(jiàn)设施(shī)难以采集、存储、管理、分析和(hé)使用的超大规模的(de)数据(jù)集。大数据具有规模(mó)大、种(zhǒng)类杂(zá)、快速化、价值密度低等特(tè)点(diǎn)(4V特性)。大(dà)数据(jù)的“大”是一个相对概念,没有具体标准,如果一定要给一个标准,那么10-100TB通(tōng)常(cháng)称为大数据的门槛。
数据分(fèn)析(xī)是(shì)一个大的概念,理(lǐ)论上任何对(duì)数据进(jìn)行计(jì)算、处(chù)理从而得出一些有意义的结论的(de)过程,都(dōu)叫数据分析(xī)。从数据本身的复杂(zá)程度、以及(jí)对数据进行处理的复杂度和(hé)深度来(lái)看(kàn),可以把数据(jù)分析分为(wéi)以下4个层次:数据统计(jì),OLAP,数据挖(wā)掘,大数(shù)据(jù)。
大(dà)数据(jù)分(fèn)析和数(shù)据分析是(shì)有区别和联系的。这里重点关注两者的是技术要求、使用(yòng)场景、业务范围等方面的区别和(hé)联系。重点要区分(fèn)理论研究(jiū)和实(shí)际应用两方面区别和(hé)联系。
第一:在(zài)分析方法上两者并没有本质不同
数据分析的核(hé)心工作是人对数据指标(biāo)的(de)分析、思考(kǎo)和(hé)解读,人脑所能(néng)承载的数据量是极其(qí)有(yǒu)限的。所以,无论是“传统数据(jù)分析(xī)”,还是(shì)“大数据分析”,均需要将原始数据按照(zhào)分析思路进行统计处理,得到(dào)概要性的统(tǒng)计结果(guǒ)供人分析。两者(zhě)在这个过程(chéng)中是类似的,区别只是原始数据(jù)量大小(xiǎo)所(suǒ)导(dǎo)致处理方式的(de)不同。
第二(èr):在对统计学知识的使用重心(xīn)上两者存在较大的不同
传统数据分析”使用的(de)知识主要围绕(rào)“能否通(tōng)过少(shǎo)量的(de)抽样(yàng)数(shù)据来推测(cè)真实世界”的主题展开。“大数据分析”主要是利(lì)用各种类型的全量数据(不(bú)是(shì)抽样数据),设计统(tǒng)计方(fāng)案,得到兼具细致和置信的统计结(jié)论。
第三(sān):与机器(qì)学习模(mó)型的(de)关系上,两者有着本质差别
“传统数据分(fèn)析”在大部分时候,知识将机器学习模型当(dāng)黑(hēi)盒工具来辅助分析数据。而“大数据分析”,更多时候是两者的(de)紧密结合,大(dà)数据分(fèn)析产出的不仅是一(yī)份分析效果测评,后(hòu)续基于此来升级产(chǎn)品。在大数据分(fèn)析的场景中(zhōng),数据分析往往是数据加(jiā)墨的前(qián)奏,数据建模是数据(jù)分析的(de)成果。