3.1 什么是大数据
云计算、物联网、移动互连、社交媒体等新兴信息技术和应用模式的快速发展,促使全球数据量急剧增加,推动人类社会迈入大数据时代。一般意义上,大数据是指利用现有理论、方法、技术和工具难以在可接受的时间内完成分析计算、整体呈现高价值的海量复杂数据集合。
3.1.1 大数据的特征
大数据呈现出多种鲜明的特征。
• 在数据量方面,当前全球所拥有的数据总量已经远远超过历史上的任何时期,更为重要的是,数据量的增加速度呈现出倍增趋势,并且每个应用所计算的数据量也大幅增加。
• 在数据速率方面,数据的产生、传播的速度更快,在不同时空中流转,呈现出鲜明的流式特征,更为重要的是,数据价值的有效时间急剧缩短,也要求越来越高的数据计算和使用能力。
• 在数据复杂性方面,数据种类繁多,数据在编码方式、存储格式、应用特征等多个方面也存在多层次、多方面的差异性,结构化、半结构化、非结构化数据并存,并且半结构化、非结构化数据所占的比例不断增加。
• 在数据价值方面,数据规模增大到一定程度之后,隐含于数据中的知识的价值也随之增大,并将更多地推动社会的发展和科技的进步。此外,大数据往往还呈现出个性化、不完备化、价值稀疏、交叉复用等特征。
大数据蕴含大信息,大信息提炼大知识,大知识将在更高的层面、更广的视角、更大的范围帮助用户提高洞察力,提升决策力,将为人类社会创造前所未有的重大价值。但与此同时,这些总量极大的价值往往隐藏在大数据中,表现出价值密度极低、分布极其不规律、信息隐藏程度极深、发现有用的价值极其困难的鲜明特征。这些特征必然为大数据的计算环节带来前所未有的挑战和机遇,并要求大数据计算系统具备高性能、实时性、分布式、易用性、可扩展性等特征。
如果将云计算看作对过去传统IT架构的颠覆,云计算也仅仅是硬件层面对行业的改造,而大数据的分析应用却是对行业中业务层面的升级。大数据将改变企业之间的竞争模式,未来的企业将都是数据化生存的企业,企业之间竞争的焦点将从资本、技术、商业模式的竞争转向对大数据的争夺,这将体现为一个企业拥有的数据的规模、数据的多样性以及基于数据构建全新的产品和商业模式的能力。目前来看,越来越多的传统企业看到了云计算和大数据的价值,从传统的IT积极向DT时代转型是当前一段时间的主流,简单地解决云化的问题,并不能给其带来更多价值。
3.1.2 大数据的误区
大数据有不少的误区。我们先看看大数据不是什么。
(1)大数据≠拥有数据
很多人觉得拥有数据,特别是拥有大量的数据,就是大数据了,这肯定是不对的,数据量大不是大数据,比如气象数据很大,如果仅仅用于气象预测,只要计算能力跟上就行,还远远没有发挥它的价值。但是保险公司根据气象大数据来预测自然灾害以及调整与自然灾害相关的保险费率,它就会演化出其他的商业价值,形成大数据的商业环境。所以,大数据要使用,甚至关联、交换才能产生真正价值,形成特有的大数据商业。
(2)大数据≠报表平台
有很多企业建立了自己业务的报表中心,或者大屏展示中心,就马上宣布已经实现了大数据,这是远远不够的。报表虽然也是大数据的一种体现,但是真正的大数据业务不是生成报表靠人来指挥,那是披着大数据外表的报表系统而已。在大数据闭环系统中,万物都是数据产生者,也是数据使用者,通过自动化、智能化的闭环系统自动学习、智能调整,从而提升整体的生产效率。
(3)大数据≠计算平台
我们经常看到一些报道,说某某金融机构建立了自己的大数据系统,后来仔细一看,就是搭建了一个几百台机器的Hadoop集群而已。大数据计算平台是大数据应用的技术基础,是大数据闭环中非常重要的一环,也是不可缺少的一环,但是不能说有了计算平台就有了大数据。比如我买了锅,不能说我已经有了菜,从锅到菜还缺原料(数据)、刀具(加工工具)、厨师(数据加工),才能最终做出菜来。
(4)大数据≠精准营销
我见过很多创业公司在做大数据创业,仔细一看,做的是基于大数据的推荐引擎、广告定投等。这是大数据吗?他们做的是大数据的一种应用,可以说已经是大数据的一种了。只是大数据整个生态不能通过这一种应用来表达而已。正如大象的耳朵是大象的一部分,但是不能代表大象。
3.1.3 大数据交易难点
在未来,数据将成为商业竞争最重要的资源,谁能更好地使用大数据,谁将领导下一代的商业潮流。所谓无数据,不智能;无智能,不商业。下一代的商业模式就是基于数据智能的全新模式,虽然才开始萌芽,才有几个有限的案例,但是其巨大的潜力已经被人们认识到。简单地讲,大数据需要有大量能互相连接的数据(无论是自己的,还是购买、交换别人的),它们在一个大数据计算平台(或者能互通的各个数据节点上),有相同的数据标准能正确的关联(如ETL、数据标准),通过大数据相关处理技术(如算法、引擎、机器学习),形成自动化、智能化的大数据产品或者业务,进而形成大数据采集、反馈的闭环,自动智能地指导人类的活动、工业制造、社会发展等。但是,数据交易并没有这么简单,因为数据交易涉及以下几个非常大的问题。
(1)怎么保护用户隐私信息
在Facebook隐私泄露事件之后,其创始人兼CEO马克·扎克伯格(Mark Zuckerberg)称该公司没能保护好用户的数据,承诺这种事情永远不会再发生。扎克伯格为了挽回公司声誉,大量投放道歉广告,以及接受国会的洗礼(见图3-2)。隐私泄露事件使得该公司的市值在事件爆发的一周内蒸发了近580亿美元(约合3661亿元)。
图3-2 Facebook创始人马克·扎克伯格在美国国会做证
欧盟已经出台了苛刻的数据保护条例,还处在萌芽状态的中国大数据行业,怎么确保用户的隐私信息不被泄漏呢?对于一些非隐私信息,比如地理数据、气象数据、地图数据进行开放、交易、分析是非常有价值的,但是一旦涉及用户的隐私数据,特别是单个人的隐私数据,就会涉及道德与法律的风险。
数据交易之前的脱敏或许是一种解决办法,但是并不能完全解决这个问题,因此一些厂商提出了另一种解决思路,基于平台担保的“可用不可见”技术。例如双方的数据上传到大数据交易平台,双方可以使用对方的数据以获得特定的结果,比如通过上传一些算法、模型而获得结果,双方都不能看到对方的任何详细数据。
(2)数据的所有者问题
数据作为一种生产资料,跟农业时期的土地、工业时期的资本不一样,使用之后并不会消失。如果作为数据的购买者,这个数据的所有者到底是谁?怎么确保数据的购买者不会再次售卖这些数据?或者购买者加工了这些数据之后,加工之后的数据所有者是谁?
(3)数据使用的合法性问题
大数据营销中,目前用得最多的就是精准营销。数据交易中,最值钱的也是个人数据。我们日常分析做的客户画像,目的就是给海量客户分群、打标签,然后有针对性地开展定向营销和服务。然而,如果利用用户的个人信息(比如年龄、性别、职业等)进行营销,必须事先征得用户的同意,才能向用户发送广告信息,还是可以直接使用?
所以,数据的交易与关联使用必须解决数据标准、立法以及监管的问题,在未来,不排除有专门的法律,甚至专业的监管机构,如各地成立大数据管理局来监管数据的交易与使用问题。如果真的到了这一天,那也是好事,数据要流通起来才会发挥更大的价值。如果每个企业都只有自己的数据,即使消除了企业内部的信息孤岛,还有企业外部的信息孤岛。
3.1.4 大数据的来源
在下一代的革命中,无论是工业4.0(国内叫中国制造2025)还是物联网(甚至是一个全新的协议与标准),随着数据科学与云计算能力(甚至是基于区块链的分布式计算技术)的发展,唯独数据是所有系统的核心。万物互联、万物数据化之后,基于数据的个性化、智能化将是一次全新的革命,将超越100多年前开始的自动化生产线的工业3.0,给人类社会整体的生产力提升带来一次根本性的突破,实现从0到1的巨大变化。正是在这个意义上,这是一场商业模式的范式革命。商业的未来、知识的未来、文明的未来,本质上就是人的未来。而基于数据智能的智能商业,就是未来的起点。大数据的第一要务就是需要有数据。
关于数据来源,普遍认为互联网及物联网是产生并承载大数据的基地。互联网公司是天生的大数据公司,在搜索、社交、媒体、交易等各自的核心业务领域,积累并持续产生海量数据。能够上网的智能手机和平板电脑越来越普遍,这些移动设备上的App都能够追踪和沟通无数事件,从App内的交易数据(如搜索产品的记录事件)到个人信息资料或状态报告事件(如地点变更,即报告一个新的地理编码)。非结构数据广泛存在于电子邮件、文档、图片、音频、视频以及通过博客、维基,尤其是社交媒体产生的数据流中。这些数据为使用文本分析功能进行分析提供了丰富的数据源泉,还包括电子商务购物数据、交易行为数据、Web服务器记录的网页点击流数据日志。
物联网设备每时每刻都在采集数据,设备数量和数据量都在与日俱增,包括功能设备创建或生成的数据,例如智能电表、智能温度控制器、工厂机器和连接互联网的家用电器。这些设备可以配置为与互联网络中的其他节点通信,还可以自动向中央服务器传输数据,这样就可以对数据进行分析。机器和传感器数据是来自物联网(IoT)所产生的主要例子。
这两类数据资源作为大数据金矿,正在不断产生各类应用。比如,来自物联网的数据可以用于构建分析模型,实现连续监测(如当传感器值表示有问题时进行识别)和预测(如警示技术人员在真正出问题之前检查设备)。国外出现了这类数据资源应用的不少经典案例。还有一些企业,在业务中也积累了许多数据,如房地产交易、大宗商品价格、特定群体消费信息等。从严格意义上说,这些数据资源还算不上大数据,但对商业应用而言,却是最易获得和比较容易加工处理的数据资源,也是当前在国内比较常见的应用资源。
在国内还有一类是政府部门掌握的数据资源,普遍认为质量好、价值高,但开放程度差。许多官方统计数据通过灰色渠道流通出来,经过加工成为各种数据产品。《大数据纲要》把公共数据互联开放共享作为努力方向,认为大数据技术可以实现这个目标。实际上,长期以来,政府部门间的信息数据相互封闭割裂是治理问题而不是技术问题。面向社会的公共数据开放愿望虽十分美好,但恐怕一段时间内可望而不可即。
对于某一个行业的大数据场景,一是要看这个应用场景是否真有数据支撑,数据资源是否可持续,来源渠道是否可控,数据安全和隐私保护方面是否有隐患;二是要看这个应用场景的数据资源质量如何,是“富矿”还是“贫矿”,能否保障这个应用场景的实效。对于来自自身业务的数据资源,具有较好的可控性,数据质量一般也有保证,但数据覆盖范围可能有限,需要借助其他资源渠道;对于从互联网抓取的数据,技术能力是关键,既要有能力获得足够大的量,又要有能力筛选出有用的内容;对于从第三方获取的数据,需要特别关注数据交易的稳定性。数据从哪里来是分析大数据应用的起点,如果一个应用没有可靠的数据来源,再好、再高超的数据分析技术都是无本之木。我们经常看到,许多应用并没有可靠的数据来源,或者数据来源不具备可持续性,只是借助大数据风口套取资金。这是很可悲的。
3.1.5 数据关联
数据无处不在,人类从发明文字开始,就开始记录各种数据,只是保存的介质一般是书本,这难以分析和加工。随着计算机与存储技术的快速发展,以及万物数字化的过程(音频数字化、图形数字化等),出现了数据的爆发。而且数据爆发的趋势随着万物互联的物联网技术的发展会越来越迅速。同时,对数据的存储技术和处理技术的要求也会越来越高。据IDC出版的数字世界研究报告显示,2013年,人类产生、复制和消费的数据量达到4.4ZB。而到2020年,数据量将增长10倍,达到44ZB。大数据已经成为当下人类最宝贵的财富,怎样合理有效地运用这些数据,发挥这些数据应有的作用,是大数据将要做到的。
早期的企业比较简单,关系型数据库中存储的数据往往是全部的数据来源,这个时候对应的大数据技术也就是传统的OLAP数据仓库解决方案。因为关系型数据库中基本上存储了所有数据,往往大数据技术也比较简单,直接从关系型数据库中获得统计数据,或者创建一个统一的OLAP数据仓库中心。以淘宝为例,淘宝早期的数仓数据基本来源于主业务的OLTP数据库,数据不外乎用户信息(通过注册、认证获取)、商品信息(通过卖家上传获得)、交易数据(通过买卖行为获得)、收藏数据(通过用户的收藏行为获得)。从公司的业务层面来看,关注的也就是这些数据的统计,比如总用户数,活跃用户数,交易笔数、金额(可钻取到类目、省份等),支付宝笔数、金额,等等。因为这个时候没有营销系统,没有广告系统,公司也只关注用户、商品、交易的相关数据,这些数据的统计加工就是当时大数据的全部。
但是,随着业务的发展,比如个性化推荐、广告投放系统的出现,会需要更多的数据来做支撑,而数据库的用户数据,除了收藏和购物车是用户行为的体现外,用户的其他行为(如浏览数据、搜索行为等)这个时候是完全不知道的。这里就需要引进另一个数据来源,即日志数据,记录用户的行为数据,可以通过Cookie技术,只要用户登录过一次,就能与真实的用户取得关联。比如通过获取用户的浏览行为和购买行为,进而可以给用户推荐他可能感兴趣的商品,看了又看、买了又买就是基于这些最基础的用户行为数据做的推荐算法。这些行为数据还可以用来分析用户的浏览路径和浏览时长,这些数据是用来改进相关电商产品的重要依据。
2009年,移动互联网飞速发展,随着基于Native技术的App大规模出现,用传统日志方式获取移动用户行为数据已经不再可能,这个时候涌现了一批新的移动数据采集分析工具,通过内置的SDK可以统计Native上的用户行为数据。数据是统计到了,但是新的问题也诞生了,比如在PC上的用户行为怎么对应到移动端的用户行为,这个是脱节的,因为PC上有PC上的标准,移动端又采用了移动的标准,如果有一个统一的用户库,比如登录名、邮箱、身份证号码、手机号、IMEI地址、MAC地址等,来唯一标识一个用户,无论是哪里产生的数据,只要是第一次关联上来,后面就能对应上。
这就涉及一个重要的话题—数据标准。数据标准不仅用于解决企业内部数据关联的问题,比如一个好的用户库,可以解决未来大数据关联上的很多问题,假定公安的数据跟医院的数据进行关联打通,可以发挥更大的价值,但是公安标识用户的是身份证,而医院标识用户的则是手机号码,有了统一的用户库后,就可以通过ID-Mapping技术简单地把双方的数据进行关联。数据的标准不仅仅是企业内部进行数据关联非常重要,跨组织、跨企业进行数据关联也非常重要,而业界有能力建立类似用户库等数据标准的公司和政府部门并不多。
大数据发展到后期,当然是数据越多越好,企业内部的数据已经不能满足公司的需要。比如淘宝,想要对用户进行一个完整的画像分析,想获得用户的实时地理位置、爱好、星座、消费水平、开什么样的车等,用于精准营销。淘宝自身的数据是不够的,这个时候,很多企业就会去购买一些数据(有些企业也会自己去爬取一些信息,这个相对简单一点),比如阿里收购高德,采购微博的相关数据,用于用户的标签加工,获得更精准的用户画像。
3.1.6 大数据生产链
如图3-3所示,大数据生产全链条覆盖数据采集、计算引擎、数据加工、数据可视化、机器学习、数据应用等。计算引擎包括Hadoop生态系统、底层计算平台、开发工具/组件,基于各自算法的计算引擎/服务,以及最上层的各种数据应用/产品。
图3-3 大数据产业链
3.1.7 大数据怎么用
如何把数据资源转化为解决方案,实现产品化,是我们特别关注的问题。大数据只是一种手段,并不能无所不包、无所不用。我们关注大数据能做什么、不能做什么,现在看来,大数据主要有以下几种较为常用的功能。
• 追踪:互联网和物联网无时无刻不在记录,大数据可以追踪、追溯任何记录,形成真实的历史轨迹。追踪是许多大数据应用的起点,包括消费者购买行为、购买偏好、支付手段、搜索和浏览历史、位置信息等。
• 识别:在对各种因素全面追踪的基础上,通过定位、比对、筛选可以实现精准识别,尤其是对语音、图像、视频进行识别,使可分析的内容大大丰富,得到的结果更为精准。
• 画像:通过对同一主体不同数据源的追踪、识别、匹配,形成更立体的刻画和更全面的认识。对消费者画像,可以精准地推送广告和产品;对企业画像,可以准确地判断其信用及面临的风险。
• 预测:在历史轨迹、识别和画像基础上,对未来趋势及重复出现的可能性进行预测,当某些指标出现预期变化或超预期变化时给予提示、预警。以前也有基于统计的预测,大数据大大丰富了预测手段,对建立风险控制模型有深刻意义。
• 匹配:在海量信息中精准追踪和识别,利用相关性、接近性等进行筛选比对,更有效率地实现产品搭售和供需匹配。大数据匹配功能是互联网约车、租房、金融等共享经济新商业模式的基础。
• 优化:按距离最短、成本最低等给定的原则,通过各种算法对路径、资源等进行优化配置。对企业而言,提高服务水平,提升内部效率;对公共部门而言,节约公共资源,提升公共服务能力。
上述概括并不一定完备,大数据肯定还有其他更好的功能。当前许多貌似复杂的应用,大都可以细分成以上几种类型。例如,大数据精准扶贫项目,从大数据应用角度,通过识别、画像,可以对贫困户实现精准筛选和界定,找对扶贫对象;通过追踪、提示,可以对扶贫资金、扶贫行为和扶贫效果进行监控和评估;通过配对、优化,可以更好地发挥扶贫资源的作用。这些功能也并不都是大数据所特有的,只是大数据远远超出了以前的技术,可以做得更精准、更快、更好。