1.2.1 大数据的特征

大数据并非单指很多的数据(很多的数据可以用“海量数据”一词来描述),也没有明确的分类方法指出大于某个阈值的数据量可以称为大数据。目前公认的大数据具有四个特征,即IBM总结的“4V”。

(1)大容量(Volume):数据总量大,新兴的互联网业务,如:社交网络、电商等都是会对大量数据进行使用的业务场景,而传统的天文探测、基因研究等也是会对大容量数据进行处理的应用。人们一般认为,大数据业务所涉及的数据量可以达到几百GB,甚至TB(1024GB)和PB(1024TB)等级。

(2)多样化(Variety):即大数据业务可能需要对多种数据类型进行处理,这些数据可能来自于多个业务系统,数据格式有所不同,或者是不同领域的数据,例如当我们搜索附近的评价好的餐厅时,提供服务的网站既需要处理位置数据也需要处理评分数据,以实现根据地理位置和用户评价的综合排序。此外多样性表示大数据业务可以对半结构化(例如日志)和非结构化数据进行处理(例如照片和视频等)。

(3)高速率(Velocity):数据增长快且数据持续增长。常见的大数据业务领域,如互联网、电信、金融等,都会持续进行业务处理和交易,期间会持续产生大量的业务数据,陆续被采集到大数据系统中,这个过程不一定是实时的,但大多是持续的。大数据业务还需要根据业务需求及时更新、处理数据,例如搜索引擎,需要持续地采集网页数据,不断进行数据分析和处理,并且要在几毫秒内对数据索引进行扫描,向用户反馈结果。

(4)有价值(Value):对大数据进行查询、统计、挖掘会产生很高的价值,但大数据通常被认为价值密度较低,即挖掘价值的过程较为困难。例如雅虎网站为了实现“搜索助手”功能(即在用户键入搜索词时,提示可能的搜索短语),需要对三年以上的搜索记录进行处理,且处理过程借助Hadoop系统实现分布式处理,并且需要对结果进行多次迭代运算,可见其处理过程的复杂性。但完成该功能可以使用户的搜索体验变得更好,价值也是明显的,如图1-3所示。

在上述特性之外,有人还提出大数据应具有数据全在线(Online)的特性,即全部的数据都处在可以被使用的状态,而非离线备份的状态。因为数据本身并不能产生价值,对数据的使用和分析才能产生价值,显然离线数据并不能被很好地利用。

48306-00-029-0.jpg

图1-3 雅虎网站的搜索助手功能

数据全在线特性还可以衍生出大数据的“全集数据”特性,即大数据强调使用全部数据而非局部的、抽样的数据。在传统的统计学中,采用正确的抽样手段,可以在减少处理数据量的同时,仍然获得精准的统计分析结果。但在某些情况下,抽样可能存在困难,比如:原始数据具有稀疏性,或由于选择了不适合的方法,导致抽样数据的随机性较差等。因此,在大数据技术逐渐成熟、成本逐渐降低之后,很多企业会选择使用全集数据来进行分析,例如谷歌公司曾根据用户的搜索记录预测流感趋势,考虑到其用户来自许多不同的城市和地区,采用全集数据才可以最大限度地保证预测的精准性。

此外,还有人将4V中的Value替换为Veracity,即真实性,强调数据应该是真实的、高质量的,或者Validity(有效的)、Visualization(可视化的),都可以看作大数据常见特性的一种描述。

需要注意的是,上述特性并非严格限定,只是对大数据常见特性的一般性归纳。