行业动态
云中的大数据并不仅仅只是 MapReduce。在大数据这样一个不断增长的市场中,捕捉下一个大的创新才是关键所在。
亚马逊和谷歌之间关于云市场的霸主之战是多方位的,但是其中最为突出的是大数据云。
众所周知,谷歌公司发明了MapReduce,但是目前AWS对于这项技术却拥有着更为广泛的使用平台。流数据分析可能是下一个的应用趋势,而谷歌公司宣称,他们新的数据流技术是优于MapReduce的。
“在明年,谷歌公司将不会仅仅是复制AWS所提供的技术而已,”总部位于马萨诸塞州Cambridge市的Forrester 研究公司的分析师James Staten说。“他们必须推出能够有别于平台的产品;很显然,他们所提供的大数据云服务是他们认为能够体现出谷歌公司独特个性的东东。”
在最近进行的一次针对专业人士的调查,375名的受访者中有30%认为公共云基础设施即服务将是最深刻影响他们企业大数据分析战略的IT发展趋势。其中34%的受访者还认为,大数据软件即服务具有最大的影响,Nik Rouda在一份五月份的ESG报告——企业数据分析趋势:市场驱动、组织动态与客户期望中如是表示。
Rouda在这篇报告中表示,大数据和公共云趋势之间存在着较高程度的重叠。这两种云模式也可被视为收集和分析大量数据的所在,而这是之前未被涉及过的。
如今的战场:MapReduce和BigQuery
亚马逊网络服务(AWS)已经依靠其弹性MapReduce服务开发了一个强大的业务,这个服务最先于2009年推出。如今,无论是大公司还是初创公司都会使用这项服务来深入地了解海量存储数据,例如客户购买行为和人类基因图谱等特殊分析应用。
“Hadoop的空间真的是依赖于MapReduce的,所以有不少的业内领先者获得了市场成功…所有的推广和得到良好的推动,”Rouda说。
但是,谷歌公司的App Engine MapReduce仍然还是试验性质的。
谷歌公司最流行的大数据云服务就是BigQuery,该项服务可允许用户对大型数据集执行SQL类的查询操作。
Workiva公司是一家财务报告软件供应商,该公司会把他的所有应用程序日志和应用程序分析信息全数发送给BigQuery来运行一些分析功能,例如应用程序在使用一段时间之后的运行性能、功能使用以及跟踪趋势,总部位于爱荷华州Ames市的某家公司的平台开发高级主管Dave Tucker说。在大数据查询中插入SQL这类的接口也影响着新兴大数据应用的发展趋势,Rouda说。
Rouda表示,MapReduce似乎也是人气渐衰,诸如Spark这样执行实时处理的应用程序以及使用SQL查询命令的项目都会搜索大数据而不是对MapReduce执行写操作。
与之相反,一些AWS的大数据从业人员则表达了不同的意见。
“对于我来说,MapReduce也就仅仅是一个概念而已,这是一个你如何处理大量数据的概念,即分发数据、压缩数据并生成数据摘要,”总部位于马萨诸塞州Lexinton市的一家生物技术研究公司SynapDx的首席软件架构师Ed Abrams说,“我是根本无法想象它会就此消失的。”
在前面的地平线上:流数据分析
谷歌公司在六月份的时候启动了一个针对新数据分析流程的内测程序(即所谓的Dataflow),该公司的官员称之为是能够检查实时事件流和实施多步骤处理管道的另一个MapReduce发展方向。
这是不同于用于批量分析的MapReduce的,Rouda说。
“可能你希望找到,‘让我看看所有的客户,然后让我看看在东北部的所有客户,再然后请告诉我是否有折扣,’”Rouda说。“毫无疑问,它的实时性要优于MapReduce。”
亚马逊的最新服务之一Kinesis与之类似,尤其在处理实时数据流方面。Kinesis已普遍上市超过十个月。
至于Dataflow上市时谷歌公司是如何定价的问题,Rouda表示,这是市场必须以其为中心的新一代技术。
“如果你无法找到能够为弹性MapReduce进行应用程序开发的专业人士,那么你的Dataflow数量只能是个位数了,”他说。“在这一点上,它就好像主要是以在谷歌云平台上开发和使用谷歌数据存储的所有新应用程序为目标的。”
精彩瞬间
Moment