随着包括主流客户在内的大数据分析市场的快速扩张,哪些技术是最需要的,哪些技术具有巨大的增长潜力,这些问题的答案都可以在《TechRada:大数据,2016年第一季度》报告中找到。一份新的Forrester研究报告评估了22项技术在整个数据生命周期中的成熟度和发展轨迹。这些流行的大数据技术都是关于实时、预测和综合洞察力的技术,这正是客户现在想要的。
根据Forrester的分析,以下是我对十大热门大数据技术的一些分析:
1.预测分析:软件和/或硬件解决方案,允许公司通过分析大数据源来发现、评估、优化和部署预测模型,以提高业务绩效或降低风险。
2.NoSQL数据库:关键值、文档和图形的数据库。
3.搜索和知识发现:支持从位于多个来源的大型非结构化和结构化数据存储库中自助提取信息和新见解的工具和技术。
4.流分析:可以过滤、聚合、丰富和分析来自许多不同活动数据源和任何数据格式的高通量数据的软件。
5.内存数据结构:通过将数据分布在分布式计算机系统的动态随机存取存储器、闪存或SSD上,可以提供低延迟访问,处理大量数据。
6.分布式文件存储:一种计算机网络,其中数据通常以复制的方式存储在多个节点上,以获得冗余和性能。
7.数据虚拟化:一种实时和接近实时地从各种数据源传输信息的技术。
8.数据集成:跨解决方案的数据整理工具,如Amazon Elastic MapReduce、Apache Hive、Apache Pig、Apache Spark、MapReduce、Couchbase、Hadoop和MongoDB。
9.数据准备:软件可以减轻购买、塑形、清理、分享各种杂乱数据集的负担,从而加速数据在分析中的有用性。
10.数据质量:利用分布式数据存储和数据库上的并行操作来清理和丰富大型高速数据集的产品。
Forrester的TechRadar方法评估每项技术的潜在成功,上述10项技术都有望取得“显著成功”。此外,每项技术根据其技术生态系统的发展水平,处于特定的成熟阶段。前八项技术被认为处于成长期,后两项技术被认为处于生存期。
Forrester还估计了这项技术进入下一阶段所需的时间,而预测分析是唯一一个标题为“> 10年”的技术,预计“通过增长后期的均衡阶段,长期提供高商业价值”。“上面提到的第二到第八项技术有望在三到五年内进入下一阶段,后两项技术有望在一到三年内从生存阶段进入成长期。
最后,Forrester提供了对每项技术的商业附加值的评估,并根据不确定性进行了调整。这不仅基于潜在的影响,还基于来自实施和市场声誉的反馈和证据。弗雷斯特说:“如果这项技术及其生态系统处于发展的早期阶段,我们不得不假设它的潜在损害和破坏大于一项更为知名的技术。上述列表中的前两种技术被评为“高”业务增值技术,后两种被评为“中”技术,其余被评为“低”技术,这无疑是由于它们的新兴地位和不成熟。
为什么我要把两个还处于生存阶段的数据准备和数据质量技术加入到最热门技术的名单中?在同一份报告中,Forrester还提供了2015年第四季度对63家大数据供应商的调查数据:
客户对以下各项功能的兴趣有多大?
1.数据准备和发现52%
2.数据集成48%
3.高级分析46%
4.客户分析46%
5.数据安全性38%
6.在内存中计算37%
Forrester预测,几家独立供应商的数据准备将幸存下来,它认为这是“数据民主化的重要功能”。换句话说,数据分析可以让科学家花更多的时间建模和发现见解,并让更多的业务用户和数据挖掘获得乐趣。除了确保决策基于可靠准确的数据,数据质量还包括上表中的数据安全性。Frest预计,随着公司将数据认证流程正规化,数据质量将在未来几年取得巨大成功。数据认证工作努力确保数据达到预期的质量标准;安全性;以及支持业务决策、业务绩效和业务流程的法规遵从性。"
“大数据”作为一个话题,已经成为主流受众的话题,可能比以往任何一个技术流行语都要流行得多。这无助于讨论这个无定形的术语,它被大众定义为“地球的神经系统”,或者被技术观众定义为“Hadoop”。Forrester的报告有助于澄清这一术语,将大数据定义为由22项技术组成的生态系统,每项技术对企业和消费者都有特定的好处。
大数据,尤其是它的一个属性,大容量,最近引发了一个新的普遍讨论话题,人工智能。大数据集的可用性是深度学习受到关注的原因之一,从识别互联网猫到击败围棋冠军。反过来,人工智能可能会导致收集和分析数据的新工具的出现。
弗雷斯特说:“除了更多的数据和更多的计算能力,我们现在还扩展了分析技术,如深度学习和上下文语义服务,这使得人工智能成为解决更广泛商业问题的理想工具。因此,Forrester发现许多新公司正在提供工具和服务,试图用模仿人类智能某些方面的机器来支持应用程序和流程。”
预测是困难的,尤其是对未来,但这是一个安全的赌注。在模仿人类智能元素的竞争中,谷歌、脸书、亚马逊、IBM和微软都拥有非常强大的财力,这将在不久的将来改变我们所说的“大数据”。
那么,这些公司在购买哪些大数据技术呢?云计算,AWS非关系分析系统是大数据技术投资的热点领域,认知软件也是。
值得关注的15大数据技术
似乎有无数的技术供应商提供大数据解决方案。目前,许多流行的大数据解决方案可以分为以下15类:
1.Hadoop生态系统
虽然Apache Hadoop可能不像过去那样占据主导地位,但谈论大数据几乎不可能不提到这种用于大型数据集分布式处理的开源框架。去年,Forrester预测“在未来两年内,100%的大型企业将采用它进行大数据分析。”
多年来,Hadoop已经发展成为一个完整的生态系统,拥有相关的软件,很多商业大数据解决方案都是基于Hadoop的。事实上,Zion市场研究公司预测,到2022年,基于hadoop的产品和服务市场将继续以50%的复合年增长率增长,届时其价值将达到871.4亿美元,高于2016年的76.9亿美元。
包括Cloudera、Hortonworks和MapR在内的主要Hadoop供应商以及领先的公共云都提供支持该技术的服务。
2.发动
Apache Spark是Hadoop生态系统的一部分,但它的使用已经变得如此广泛,以至于它应该有自己的类别。它是Hadoop处理大数据的内部引擎,比标准的Hadoop引擎MapReduce快100倍。
在2016年AtScale大数据成熟度调查中,25%的受访者表示已经将Spark投入生产,33%的受访者表示已经有Spark项目在开发中。显然,人们对这项技术的兴趣是相当大的,并且还在增长,许多提供Hadoop产品的供应商也提供基于spark的产品。
3.稀有
另一个开源项目R是用于处理统计数据的编程语言和软件环境。它是数据科学家的宠儿,由R基金会管理,在GPL 2的许可下可以使用。许多流行的集成开发环境,包括Eclipse和Visual Studio,都支持这种语言。
一些对各种编程语言的流行程度进行排名的组织说,R已经成为世界上最流行的语言之一。比如IEEE把R称为第五大最受欢迎的编程语言,Tiobe和RedMonk都排在第14位。这很重要,因为靠近这些图顶部的编程语言通常是一种通用语言,可以用于许多不同类型的工作。对于一个几乎只用于大数据项的语言来说,排名如此之高,说明了大数据的重要性,也说明了该语言在其领域的重要性。
4.数据湖
为了更方便地访问其庞大的数据存储,许多企业正在构建数据湖。这些大型数据存储库从许多不同的数据源收集数据,并以自然状态存储它们。与数据仓库不同,数据仓库也从不同的数据源收集数据,但是处理和存储数据。在这种情况下,湖和仓库的比喻是相当准确的。如果说数据像水,那么数据湖就是一个天然的、未经过滤的水体,而数据仓库更像是一个叠在架子上的水瓶。
当企业想要存储数据,但不确定如何使用它时,数据湖特别有吸引力。许多物联网数据可能属于这一类别,物联网的趋势正在数据湖的增长中发挥作用。
和市场预测,数据湖的收入将从2016年的25.3亿美元增长到2021年的88.1亿美元。
5.NoSQL数据库
传统的关系数据库管理系统将信息存储在结构化和定义的列和行中。开发人员和数据库管理员使用一种叫做SQL的特殊语言来查询、操作和管理这些rdbms中的数据。
NoSQL数据库专用于存储非结构化数据并提供快速性能,尽管它们不提供与rdbms相同的一致性级别。流行的NoSQL数据库包括MongoDB、Redis、Cassandra、Couchbase等。甚至领先的RDBMS供应商,如Oracle和IBM,现在也提供NoSQL数据库。
随着大数据的发展,NoSQL数据库越来越受欢迎。根据联合市场研究公司的数据,到2020年,NoSQL市场的价值可能达到42亿美元。然而,rdbms的市场仍然比NoSQL大得多。
MongoDB:MonboDB是几个著名的NoSQL数据库之一。
6.预测分析
预测是大数据分析的一个子集,它试图根据历史数据预测未来的事件或行为。它使用数据挖掘、建模和机器学习技术来预测接下来会发生什么。它通常用于欺诈检测、信用评分、市场营销、财务和业务分析以及其他目的。
近年来,人工智能的进步大大提高了预测和分析解决方案的能力。因此,企业开始加大对具有预测能力的大数据解决方案的投入。很多厂商,包括微软,IBM,SAP,SAS,Statistica,RapidMiner,KNIME等。,提供预测分析解决方案。锡安市场研究公司表示,预测分析市场在2016年创造了34.9亿美元的收入,到2022年这一数字可能会达到109.5亿美元。
7.内存数据库
在任何计算机系统中,记忆的速度都比长期存储快几个数量级。如果大数据分析解决方案能够处理存储在内存中的数据,而不是存储在硬盘上的数据,那么它的执行速度将会大大提高。这正是内存数据库技术所做的。
许多领先的企业软件供应商,包括SAP、Oracle、Microsoft和IBM,现在都提供内存数据库技术。此外,Teradata、Tableau、Volt DB和DataStax等几家较小的公司也提供内存数据库解决方案。MarketsandMarkets的研究估计,2016年内存技术的总销售额为27.2亿美元,到2021年可能会增长到65.8亿美元。
8.大数据安全解决方案
由于大数据仓库对黑客和高级持续性威胁极具吸引力,大数据的安全性成为企业越来越关注的问题。在AtScale的调查中,安全性是与大数据相关的第二大增长领域。
根据IDG的报告,最受欢迎的大数据安全解决方案包括身份和访问控制、数据加密和数据隔离。数十家厂商提供大数据安全解决方案,来自Hadoop生态系统的开源项目Apache Ranger受到越来越多的关注。
9.大数据治理解决方案
与安全概念密切相关的是治理概念。数据治理是一个广泛的主题,包括与数据的可用性、可用性和完整性相关的所有流程。它为确保用于大数据分析的数据准确和适当提供了基础,并提供了审计跟踪,以便业务分析师或高管可以看到数据的来源。
在NewVantage Partners的调查中,91.8%的受访财富1000强高管表示,公司治理对他们的大数据计划至关重要。提供大数据治理工具的供应商包括Collibra、IBM、SAS、Informatica、Adaptive和SAP。
10.自助服务功能
由于数据科学家和其他大数据专家供不应求,且薪酬较高,许多组织都在寻找大数据分析工具,以使企业用户能够为自己服务,满足自己的需求。事实上,研究和市场的一份报告估计,自助商业智能市场在2016年创造了36.1亿美元的收入,到2021年可能会增长到73.1亿美元。Gartner指出,“现代BI和分析平台在过去几年中应运而生,以满足新的组织需求,如可访问性、敏捷性和更深入的分析洞察力,并将市场从it主导的记录系统报告转变为业务主导的敏捷分析。”
为了利用这一趋势,许多商业智能和大数据分析供应商,如Tableau、微软、IBM、SAP、Splunk、Syncsort、SAS、TIBCO、Oracle等。,在其解决方案中添加了自助服务功能。时间会告诉我们,这些产品中的一个或全部是否真的可供非专业人士使用,是否能提供企业希望通过大数据计划实现的商业价值。
1.人工智能
尽管人工智能的概念几乎和计算机一样由来已久,但这项技术直到最近几年才真正出现。在很多方面,大数据的趋势推动了人工智能的发展,尤其是在这个学科的两个分支:机器学习和深度学习。
机器学习的标准定义是,它是一种使“计算机能够在没有显式编程的情况下进行学习”的技术。在大数据分析中,机器学习技术允许系统查看历史数据,识别模式,建立模型并预测未来结果。它还与预测分析密切相关。
深度学习是一种机器学习技术,它依赖于人工神经网络,并使用多层算法来分析数据。作为一个领域,它有很大的潜力允许分析工具识别图像和视频中的内容,然后对它们进行相应的处理。
专家表示,该领域的大数据工具似乎即将大幅起飞。IDC预测,“到2018年,75%的企业和ISV开发将在至少一个应用程序中包含认知/人工智能或机器学习功能,包括所有的商业分析工具。”
拥有大数据相关工具的领先人工智能供应商包括谷歌、IBM、微软和亚马逊网络服务,数十家小型创业公司正在开发人工智能技术。
12.流分析
随着组织越来越熟悉大数据分析解决方案的功能,他们开始要求越来越快地获得洞察力。对于这些企业来说,流量分析是一个圣杯,它可以在创建数据时对数据进行分析。他们正在寻找能够接受来自许多不同来源的输入、对其进行处理并立即返回见解的解决方案。当涉及到新物联网的部署时,这是尤其可取的,这有助于促进流媒体大数据分析的兴趣。
一些供应商提供承诺提供流量分析功能的产品。它们包括IBM、Software AG、SAP、TIBCO、Oracle、DataTorrent、SQLstream、Cisco、Informatica等。MarketsandMarkets认为,流媒体分析解决方案在2016年带来了30.8亿美元的收入,到2021年可能会增加到137亿美元。
13.边缘计算
除了引起人们对流媒体分析的兴趣,物联网的趋势也引起了人们对边缘计算的兴趣。在某些方面,边缘计算是云计算的对立面。边缘计算系统不会将数据传输到中央服务器进行分析,而是在非常接近数据生成位置的地方(网络边缘)进行分析。
边缘计算系统的优势在于它减少了必须通过网络传输的信息量,从而降低了网络流量和相关成本。它还减少了对数据中心或云计算设施的需求,为其他工作负载释放了容量,并消除了潜在的单点故障。
虽然边缘计算市场,尤其是边缘计算分析市场仍在发展,但一些分析师和风险投资家已经开始将这项技术称为“下一件大事”。
14.区块链
区块链也是有远见的分析师和风险投资家的最爱。是比特币数字货币背后的分布式数据库技术。区块链数据库的独特之处在于,数据一旦写入,就无法删除或更改。此外,它具有高度的安全性,这使得它成为银行、保险、医疗和零售等敏感行业的大数据应用的最佳选择。
区块链技术仍处于初级阶段,用例仍在开发中。然而,一些供应商,包括IBM、AWS、微软和几家初创公司,已经推出了基于区块链技术的实验性或介绍性解决方案。
大数据技术,区块链。区块链是一种分布式账本技术,为数据分析提供了巨大的潜力。
15.规范分析
很多分析师把大数据分析工具分为四类。第一种是描述性分析,简单描述发生了什么。下一种类型是诊断分析,它更进一步,提供事件的原因。第三种类型是前面深入讨论过的预测分析,它试图确定接下来会发生什么。这是目前市面上大多数分析工具所能达到的最复杂程度。
然而,还有第四种类型的分析更加复杂,尽管现在很少有具备这些功能的产品。解释性分析为公司提供建议,告诉他们应该怎么做才能得到想要的结果。例如,尽管预测性分析可能会警告公司某一特定产品线的市场将会下降,但规定性分析将会分析针对这些市场变化所采取的各种行动,并预测最有可能的结果。
目前,很少有企业投资于规范分析,但许多分析师认为,在组织开始体验预测分析的好处后,这将是下一个大的投资领域。
大数据技术的市场是多元化的,不断变化的。但也许有一天,预测性和规定性的分析工具将为大数据的未来发展以及企业应如何应对提供建议。