大数据:从海量到精准
上QQ阅读APP看书,第一时间看更新

3.2 掘金红海,10大大数据分析平台

“大数据”近几年来可谓蓬勃发展,它不仅是企业趋势,也是一个改变了人类生活的技术创新。在大数据的帮助下,警察可以通过犯罪数据和社会信息来预测犯罪率,部分科学家通过遗传数据预测疾病的早期迹象。可以说,现在整个行业都非常看好大数据。

毫无疑问,在大数据时代下,企业和机构要想实现更大的业务价值,首先需要解决的就是基础架构问题,基础架构之中存储又是重中之重。目前,我国从事大数据领域的企业少之又少,而国外的科技企业将大数据看作是云计算之后的另一个巨大商机,很多企业开始加入到大数据的淘金队伍中,这一领域已经成为实实在在的红海。

本节将介绍全球10大著名的大数据分析平台(注意:排名不分先后),他们是大数据领域的“时代先锋”,他们都看到了大数据带来的大机会。

3.2.1 IBM:大数据领域的传统巨头

企业名称:IBM(如图3-10所示)

图3-10 IBM Logo

分析平台:InfoSphere大数据分析平台

上线时间:2011年5月

公司地址:美国纽约州阿蒙克市

企业网址:http://www.ibm.com/

主要业务:软件、服务器、存储、IT服务以及云计算等解决方案

业务方向:主要面向大企业等

IBM是一个拥有101年历史的公司,总部在美国东海岸。它曾经生产打字机,还生产大型PC机,其产品使用开源技术进行交互操作。在IBM的发展过程中,很多产品都是通过一系列兼并得来的。最重要的是,IBM是一家服务公司,有着工作在全球各地的顾问团队。

IBM向我们展示了将大数据与企业连接的重要性和一个主流服务组织,它还展示了向业务软件中嵌入分析功能的力量。

2011年5月,IBM正式推出InfoSphere大数据分析平台。InfoSphere大数据分析平台包括BigInsights和Streams,二者互补。

➢ Biglnsights基于Hadoop,它对大规模的静态数据进行分析,提供多节点的分布式计算,可以随时增加节点,提升数据处理能力。例如,丹麦能源企业维斯塔斯(Vestas)通过使用BigInsights大数据软件分析PB字节级别的天气数据,改善风力涡轮机的放置位置,从而获得最佳能量输出效果——以前需要数周方可完成的分析现在仅需不到一个小时。

专家提醒

Hadoop本身不提供分析的功能,因此BigInsights平台增加了文本分析、统计分析工具。

➢ Streams采用内存计算方式分析实时数据。Streams最早是美国国土安全部和IBM合作的项目,国土安全部出于反恐目的,需要实时分析电话语音信息,这个项目最终发展成为一个商用的项目。

另外,InfoSphere大数据分析平台还集成了数据仓库、数据库、数据集成、业务流程管理等组件。

3.2.2 亚马逊:完美结合大数据与云

企业名称:亚马逊(如图3-11所示)

图3-11 亚马逊Logo

分析平台:弹性MapReduce(Amazon Elastic MapReduce)

上线时间:2009年

公司地址:美国华盛顿州西雅图

企业网址:http://www.amazon.com/

主要业务:电子商务、云服务

业务方向:主要面向大企业等市场

亚马逊的老本行是图书音像制品销售,但现在这只是其业务的一个组成部分,而且已经不是公司业务的核心。如今,亚马逊已经成为一家拥有大数据,并以此获得持续利润的云计算企业。电子商务的数据,合并在这些大数据之中,仅仅是亚马逊将数据变为现金的一种方式。

亚马逊对于云计算和大数据具有先见之明,早在2009年就推出了“弹性MapReduce(Amazon Elastic MapReduce)”系统。MapReduce本身是一种编程模型,用于大规模数据集(大于1TB)的并行运算,常用作Web索引、数据挖掘、日志文件分析、金融分析、科学模拟和生物信息研究等。

然而,“弹性MapReduce”是一项能够迅速扩展的Web服务,其运行在亚马逊弹性计算云(Amazon EC2)和亚马逊简单存储服务(Amazon S3)上。面对数据密集型任务,例如互联网索引、数据挖掘、日志文件分析、机器学习、金融分析、科学模拟和生物信息学研究,用户需要多大容量,“弹性MapReduce”系统立即就能配置到多大容量。

对于MapReduce,笔者认为可以将其简单理解为:把一堆杂乱无章的数据按照某种特征归纳起来,然后处理并得到最后的结果。

专家提醒

亚马逊的“弹性MapReduce”服务系统是在AWS平台(AWS Enterprise BPM Platform,业务流程管理开发平台)之上的Hadoop实现,它用来简化新的MapReduce应用,从而让这项技术拥有更加广大的受众。

3.2.3 甲骨文:高集成度大数据平台

企业名称:甲骨文(如图3-12所示)

图3-12 甲骨文Logo

分析平台:Oracle大数据机

上线时间:2010年

公司地址:美国加利福尼亚州红木滩

企业网址:http://www.oracle.com/

主要业务:数据库、应用软件以及相关的咨询、培训和支持服务

业务方向:主要面向大企业等市场

甲骨文公司,全称甲骨文股份有限公司,是全球最大的企业软件公司,也是继Microsoft及IBM后全球收入第三多的软件公司。

伴随大数据而至,大数据分析和管理得当与否将对企业数据中心产生极大影响。作为全球最大数据库软件公司,甲骨文应时而行,推出针对大数据的众多技术产品来满足企业需求,同时提升自身的价值。

2011年10月,甲骨文正式推出了Oracle大数据机(Oracle Big Data Appliance)为许多企业提供了一种处理海量非结构化数据的方法。尤其是对于那些正在寻求以更高效的方法来采集、组织和分析海量非结构化数据的企业而言,该产品具有很大的吸引力。

Oracle大数据机同Oracle Exadata数据库云服务器、Oracle Exalytics商务智能云服务器和Oracle Exalogic中间件云服务器一起组成了Oracle最广泛的高度集成化系统产品组合,其可以帮助客户获取和管理各种类型的数据,并且可结合现有企业数据来分析,获得新的见解,从而帮助客户在充分获取信息的情况下做出最恰当的决策。

专家提醒

Oracle大数据机能够拥有强大优化企业数据仓库的能力,主要源自其配备有Oracle Big Connectors软件。Oracle大数据机旨在帮助客户利用Oracle数据库11g便捷整合存储在Hadoop和Oracle NoSQL数据库中心的数据。

3.2.4 谷歌:价值无可估量的大数据

企业名称:谷歌(如图3-13所示)

图3-13 谷歌Logo

分析平台:BigQuery

上线时间:2011年

公司地址:美国加利福尼亚州山景城

企业网址:http://www.google.com/

主要业务:互联网搜索、云计算、广告技术

业务方向:面向各类企业市场

Google在搜索界的地位是无人能及的。但是,Google的产品和服务早已不仅仅局限于搜索。如今,Google的产品包括广告(AdWords)、交流和分享(Drive和Hangouts)、开发资源(OpenSocial)、社交网络(Google +)、地图(Google Maps)、流媒体(Google Play)、统计工具(Analytics)、操作系统(Android和Chrome OS)、桌面和移动应用(Gmail)以及硬件(Galaxy Nexus)。因此,如果对其拥有的海量数据进行深入挖掘,这对于提升谷歌搜索乃至所有谷歌服务的价值无可估量。

BigQuery是Google于2011年底正式推出的一项Web服务,通过该服务,开发者可以使用Google的架构来运行SQL语句对超大型的数据库进行操作。即BigQuery可以对开发者上传的超大型数据进行直接交互式分析,开发者无需投资建立自己的数据中心。据悉,BigQuery引擎可以快速扫描高达70TB未经压缩处理的数据,并且可马上得到分析结果。

3.2.5 微软:“端到端”大数据平台

企业名称:微软(如图3-14所示)

图3-14 微软Logo

分析平台:PDW、SQL Server 2012数据库平台

上线时间:2011年

公司地址:美国华盛顿州雷德蒙市

企业网址:http://www.microsoft.com/

主要业务:电脑软件服务

业务方向:面向各类企业市场

EMC、IBM和甲骨文在2011年都大力追捧Hadoop,于是微软也进入这个市场就不足为奇了。如今,微软已经具备了打造“端到端”的大数据平台的能力。

专家提醒

“端到端”流程是从客户需求端出发,到满足客户需求端去提供端到端服务,端到端的输入端是市场,输出端也是市场。

2011年初,微软发布了SQL Server R2 Parallel Data Warehouse(PDW,并行数据仓库), PDW使用了大规模并行处理技术来支持高扩展性,它可以帮助客户扩展部署数百TB级别数据的分析解决方案。

微软在2012年上半年正式发布了SQL Server 2012数据库平台,并添加了Hadoop的相关服务,逐渐将数据业务延伸到非结构化数据领域。而伴随Windows Azure Marketplace和SharePoint等工具的推出,微软已经具备了打造端到端的大数据平台的能力。

专家提醒

Windows Azure Marketplace将实现大数据的共享,通过开放数据协议(OData)展现数百种来自微软和第三方的应用程序和数据挖掘算法。用户还可以使用SQL Server分析服务(SSAS)的Power Pivot和Power View,从结构化和非结构化数据中获得可执行的洞察力,通过微软提供的连接器就可以对Hadoop分布式文件系统中的非结构化数据进行分析与展现。

3.2.6 EMC:针对海量数据分析应用

企业名称:EMC(如图3-15所示)

图3-15 EMC Logo

分析平台:EMC Greenplum Unified Analytics Platform大数据分析平台

上线时间:2011年

公司地址:美国马萨诸塞州(麻省)Hopkinton市

企业网址:http://www.emc.com/

主要业务:信息存储及管理产品、服务和解决方案

业务方向:面向各类企业市场

EMC公司是全球信息存储及管理产品、服务和解决方案方面的领先公司。EMC是每一种主要计算平台的信息存储标准,而且世界上最重要信息中的2/3以上都是通过EMC的解决方案管理的。

EMC推出了全新EMC Greenplum Unified Analytics Platform(UAP)平台,数据团队和分析团队可以在该平台上无缝地共享信息、协作分析。Greenplum UAP是唯一的统一数据分析平台,可扩展至其他工具,其独特之处在于,它将对大数据的认知和分享贯穿于整个分析过程,实现比以往更高的商业价值。

随着EMC Greenplum统一分析平台的问世,EMC提供关键技术帮助机构用户提取大量数据的核心价植,并创造更多、更灵活、基于数据的业务机会。

专家提醒

EMC为大数据开发的硬件是模块化的EMC数据计算设备(DCA),它能够在一个设备里面运行并扩展Greenplum关系数据库和Greenplum HD节点。DCA提供了一个共享的指挥中心(Command Center)界面,让管理员可以监控、管理和配置Greenplum数据库和Hadoop系统性能及容量。

3.2.7 英特尔:用Hadoop靠拢大数据

企业名称:英特尔(如图3-16所示)

图3-16 英特尔Logo

分析平台:Hadoop商业发行版(Apache Hadoop Distribution)

上线时间:2012年

公司地址:美国加利福尼亚州圣克拉拉市

企业网址:http://www.intel.cn/

主要业务:客户机、服务器、网络通信、互联网解决方案和互联网服务

业务方向:面向各类企业市场

英特尔公司是全球最大的半导体芯片制造商,成立于1968年。1971年,英特尔推出了全球第一个微处理器,带来了计算机和互联网的革命,改变了整个世界。

2012年7月,英特尔公司对外发布了自己的Hadoop商业发行版(Apache Hadoop Distribution)。Hadoop发行版包含Hadoop分布式文件系统HDFS、分布式数据库HBase、分布式计算框架MapReduce、数据仓库Hive、数据处理Pig、机器学习Mahout商业套件。

英特尔Hadoop发行版包含了所有的分析、集成以及开发组件,并对不同组合之间进行了更加深入的优化。此外,还添加了英特尔Hadoop管理器(Hadoop Manager),其从安装、部署到配置与监控,可以提供对平台的全方位管理。目前,英特尔已经开放了免费下载,随着推广力度的不断加大,相信英特尔的Hadoop还是能够很轻松地在国内大数据市场分一杯羹的。

3.2.8 NetApp:让大数据变得更简单

企业名称:NetApp(如图3-17所示)

图3-17 NetApp Logo

分析平台:NetApp StorageGRID

上线时间:2011年

公司地址:美国加利福尼亚州森尼韦尔

企业网址:http://www.netapp.com

主要业务:储存和数据管理解决方案

业务方向:面向各类企业市场

Network Appliance, Inc.(简称NetApp,美国网域存储技术有限公司)是IT存储业界的佼佼者,自1992年创建以来,不断以创新的理念和领先的技术引领存储行业的发展。NetApp公司倡导向数据密集型的企业提供统一的存储解决方案,用以整合网络上来自服务器的数据,并有效管理呈爆炸性增长的数据。

StorageGRID是NetApp的对象存储平台,是一个久经验证的对象存储软件解决方案,设计用于管理PB级、全球分布的存储库,这些存储库包含企业和服务提供商的图像、视频和记录。通过消除数据块和文件中数据容器的典型约束,NetApp StorageGRID提供了强大的可扩展性,它支持单个全局命名空间内的数十亿个文件或对象和PB级容量。NetApp目前将StorageGRID产品并入其E系列,属于分布式内容存储类别。

NetApp自创建以来,市场业务表现亦出众超群,公司一直保持了极高的成长率,并不断扩展用户群,其客户领域包括通信、金融、能源、政府、制造、教育及各类媒体、各种企业和服务提供商。

3.2.9 惠普:构建灵活的“智能环境”

企业名称:惠普(如图3-18所示)

图3-18 惠普Logo

分析平台:Vertica Analytics Platform、Information Optimization solutions

上线时间:2011年

公司地址:美国加利福尼亚州帕罗奥多市

企业网址:www.hp.com

主要业务:打印机、数码影像、软件、计算机与资讯服务

业务方向:面向各类企业市场

惠普(HP)是一家业务机构遍及全球170多个国家和地区的科技公司。作为世界最大的科技企业,惠普提供打印机、个人计算机、软件、服务和IT基础设施等产品,帮助客户解决问题。

2011年,惠普子公司Vertica发布Vertica Analytics Platform大数据平台,意在帮助企业迅速洞悉关键的业务信息,辅助决策过程。Vertica Analytics Platform能够让用户大规模实时分析物理、虚拟和云环境中的结构化、半结构化和非结构化数据,从而深入洞悉“大数据”。

2012年6月,惠普发布信息优化解决方案(Information Optimization solutions),旨在帮助企业充分利用爆炸性增长的运营数据、应用数据和设备数据。

2013年初,惠普推出了最新版本惠普Vertica分析平台6.1(HP Vertica Analytics Platform 6.1),其能够对大数据进行简化。据了解,该平台将帮助企业通过分析包、性能提升、加强与Hadoop的集成以及简化Amazon EC2云部署,从而优化大数据并将其转化为利润。

另外,惠普还扩展了其业界领先的数字营销平台,发布了全新的Autonomy解决方案——Optimost Clickstream Analytics,其在电子商务中为市场营销人员提供客户访问、对话和参与情况的单一、连续的视图,为实现“瞬捷”企业构建灵活的智能环境。

专家提醒

在当今瞬息万变的商业环境下,“瞬捷”企业的创新优势在于能够提供与时俱进的、有竞争力的产品和服务,以加快业务增长,其优化特性则是指具备更高的投资回报率和更低的成本。

3.2.10 Sybase:彻底改变大数据分析

企业名称:Sybase(如图3-19所示)

图3-19 Sybase Logo

分析平台:Sybase IQ

上线时间:2009年

公司地址:美国加利福尼亚州Dublin市

企业网址:www.sybase.com

主要业务:应用平台、数据库和应用软件

业务方向:面向各类企业市场

Sybase公司成立于1984年11月,是全球最大的独立软件厂商之一,致力于帮助企业等各种机构进行应用、内容及数据的管理和发布。Sybase的产品和专业技术服务,为企业提供集成化的解决方案和全面的应用开发平台。

Sybase公司推出的Sybase IQ是一款为数据仓库设计的关系型数据库。IQ的架构与大多数关系型数据库不同,其特别的设计用以支持大量并发用户的即时查询。它的设计与执行进程优先考虑查询性能,其次是完成批量数据更新的速度。而传统关系型数据库引擎的设计既考虑在线的事务进程又考虑数据仓库。

其中,Sybase IQ 15.4是面向大数据的高级分析平台,它将大数据转变成可指挥每个人都行动的情报信息,从而在整个企业的用户和业务流程范围内轻松具备大数据的分析能力。

Sybase IQ大大节约了数据存储成本,而且通过其强大的可扩展性为企业提供了灵活的选择。另外,IQ比传统的数据库更容易维护,不需要经常的人工调优。简单的扩展实现以及快速的部署时间等,都大幅度地降低了企业开发数据仓库的成本。