企业不会因为他们的基础设施运行有多高效,或者他们收集的所有大数据堆叠有多高而获得任何分数。什么是重要的质量分析与智能这些数据产生了。
在过去的几年里,Hadoop已经成为数据摄取、处理和转换的代名词。这个用于分布式数据存储和处理的开源框架已经产生了自己的企业空间,并将其方式集成到所有主要的云平台中。Hadoop远非唯一值得讨论的大数据技术,但它已成为许多其他大数据技术的基础。
企业面临的问题是Hadoop空间充满了发行版和工具选项,正如Gartner研究主管Nick Heudecker所解释的,其中许多看起来都一样。Heudecker的研究范围包括信息管理,包括大数据和NoSQL空间,他说,如果你看通用数据处理选项,很多供应商都提供非常相似的功能。
细分市场
有三种主要的纯玩法Hadoopcloudera、Hortonworks和mapr等初创企业在2015年都稳步增长。根据Gartner的数据,每家公司都有大约700个客户,误差10%,这使得全球Hadoop市场在2100 - 2400个客户之间。这三家公司都提供了Hadoop发行版的免费层和企业层,并且都对Apache软件基金会(ASF)旗帜下的项目做出了重要的开源贡献。
Heudecker说:“我们的数据表明,目前44%的Hadoop使用是无偿的。”“有明确的领导人吗?”我不这么想。他们都在抢夺市场份额,因为这是一个非常新的领域。”
在过去几个月里,这三家公司之间的竞争主要归结为数据分析能力和创造性整合方式的竞争Apache火花(在一个新窗口中打开)这是一个开源的大数据处理引擎,有从实时数据流到机器学习的用例。MapR最近宣布MapR流(在一个新窗口中打开)作为“融合数据平台”的一部分,集成了Hadoop、基于spark的流处理和分析。Hortonworks对Hortonworks数据平台(HDP)进行了内存Spark分析的更新,Cloudera通过“一个平台计划”(One Platform Initiative)提供各种开源Spark集成,并提供Spark培训课程。
Heudecker解释说:“在信息管理和信息基础设施领域发生了很多事情,但并不全是Hadoop。”Spark的速度和以内存为中心的数据处理模型有着巨大的发展势头,尽管Spark的开发仍处于早期阶段。Spark将成为数据处理领域的另一种通用语言,就像今天的SQL一样。随着越来越多的公司投资于它,它肯定显示出了一些发展潜力。”
Heudecker还强调了云计算公司在大数据领域的重要性;将Hadoop和其他大数据技术集成到现有技术中的科技巨头“基础架构即服务”(IaaS)产品。
亚马逊网络服务(AWS)使用了它的Amazon Elastic MapReduce (EMR)(在一个新窗口中打开)为基于云的Hadoop业务流程提供服务。微软在其Azure云平台上与Hortonworks合作,提供了一整套大数据服务HDInsight(在一个新窗口中打开)用于管理Apache Hadoop、Spark、HBase和Storm,以及基于sql的Azure数据湖和Azure数据分析服务。IBM既有针对Hadoop的内部IBM开放平台,也有在其之上运行的分析包IBM BigInsights,还有托管Hadoop和在其Bluemix云中的Apache spark -as-a服务。这样的例子不胜枚举,企业可以在云计算中找到更适用的用例。
Heudecker说:“我们估计,单是AWS就有大约5000个客户,这是纯服务客户总和的两倍多。”“进入云端的好处之一是,你可以获得一个生态系统。您可以在任何IaaS产品上获得纯粹的Hadoop发行版。MapR可以在所有你能想到的云上使用,除了IBM的云;Cloudera和Hortonworks也一样。我们还没有看到云可用性在选择供应商时成为太多的因素。”
选择企业数据策略
Heudecker表示,对于中小型企业和成长型企业来说,在投资数据处理和分析解决方案时,决定因素是哪个平台可以提供最高水平的服务。据高德纳公司称,企业面临的最大挑战是技能差距——弄清楚平台安装和部署后由谁来管理。
“如果公司正在寻找数据平台合作伙伴,谁来帮助他们获取数据呢?谁将帮助他们构建分析应用程序?至于三个纯hadoop,评估标准往往围绕管理工具和控制台的成熟度、数据治理工具和性能。”
选择Hadoop平台的另一个有趣的方面是缺乏忠诚度。公司每隔6-12个月就会重新评估他们的Hadoop平台,看看数据处理组件是否仍然合适,因为这个领域的变化是如此之快,而大公司的差异化又是如此之小。Heudecker说,他接触过的20%的公司在他们的数据中心或云中运行多个Hadoop发行版,要么让不同的团队选择他们所选择的平台,要么有意地进行多样化,以避免陷入只使用一个Hadoop发行版的困境。
高德纳研究公司(Gartner Research)副总裁兼专注于数字战略的杰出分析师弗兰克•拜腾迪克(Frank Buytendijk)称,这种多元化的平台组合构成了“信息即资产”。拜腾迪克说,就像没有资本、劳动力、材料以及实体或虚拟设施就无法经营企业一样,没有信息就无法经营企业。
“我们过去常常从三个流动的角度来看待业务:第一流动是商品,第二流动是金钱,第三流动是信息,以确保商品和金钱的一致。现在,在大多数企业中,情况正好相反。主要流程是信息,从标识和配置到内容营销等。你是否称之为大数据并不重要。”
“大数据”过时了
拜腾季克说他不这么认为大数据作为企业的独立技术,但作为整体数字战略中的一个主题或心态。
“我不相信大数据战略,”拜腾季克说。“现在几乎没有一个商业战略没有数字组件,所以我相信有一个数字战略,在这个战略中,各种技术提供关键功能。这包括移动、社交、云、物联网、智能机器和大数据。”
Heudecker认为,我们会开始越来越少地谈论“大数据”,因为现在它只是数据。这是做生意的方式。海量和高速的数据不再令人畏惧。
Heudecker表示:“大数据正再次被信息和分析所包含。“坦白地说,大数据领域并没有差异化。我们总是被问到大数据市场的规模,但这到底意味着什么?大数据不是一个真正的市场,它是一个概念。对于一个企业来说,认为大数据是一种独特的、特别的、与你以前所做的完全不同的东西是错误的。在这一点上,数据很正常。”