2017年05月11日

Tableau Software平台致力于帮助人们快速分析、可视化并分享信息,目前超过42,000家客户通过使用Tableau快速获取结果。


而每年,Tableau都会对行业发展情况进行探讨,讨论的结果会综合形成接下来新一年的趋势分析,以下小编翻译的全文就是Tableau对于2017年的大数据趋势预测:


随着各种类型、各种规模数据的存储、处理以及价值挖掘企业的增多,2016年被称为“大数据里程碑式的一年”。2017年,支持大量结构化和非结构化数据的系统将保持增长势头。市场因素决定了数据平台在允许最终用户进行数据分析的同时,帮助数据管理人员管理和保护大数据。这些数据平台的系统会逐步成熟,在企业内IT系统更好地运行。



1. 数据处理将变得更加快速,更便于使用


Hadoop是一个由Apache基金会所开发的分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序,充分利用集群的威力进行高速运算和存储。


人们可以在Hadoop上进行机器学习和情绪分析,但人们通常会问的第一个问题往往是:交互式SQL底有多快?毕竟,SQL相当于企业用户的“中转站”,用户希望通过Hadoop数据可以更快地获得KPI数据以及一些探索性的分析。(注:SQL为结构化查询语言,一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。)


对加快速度的需求让访问速度更快、执行效率更高的数据库更受欢迎,例如Exasol和MemSQL,或者像Kudu这种基于Hadoop系统的商店,当然还需要能够更快查询数据的技术。使用诸如SQL-on-Hadoop引擎(Apache Impala,Hive LLAP,Presto,Phoenix和Drill)和OLAP-on-Hadoop技术(AtScale,Jethro Data和Kyvos Insights)此类数据查询加速器,将进一步模糊传统数据库与大数据世界的边界。


2. 大数据,Hadoop不再一家独大


过去几年,在大数据浪潮下,为了满足基于Hadoop分析的需求,我们看到了数种技术的兴起。但是,身处复杂、异构环境中的企业不再仅为了一个数据源(Hadoop)而采用孤立的BI访问点。能够解决他们需求的答案埋没在大量的数据源中,而这些数据源的范围无限广泛,从系统记录到云储存,再到来自Hadoop和非Hadoop源的结构化和非结构化数据,均有涉及。另外,甚至连关系型数据库也正在为大数据趋势做准备。例如,SQL Server 2016于近日新增了JSON支持。


2017年,客户将要求在基于大数据的基础上进行分析。数据和资源分析平台将兴起,而专为Hadoop设计的平台和未能跨应用部署的平台将被弃用。Platfora的退出便是这一趋势的预示。


3. 企业将利用数据湖来实现价值


数据湖就如一个人造水库。首先你要建造一个水坝(构建一个集群),然后往里面注满水(数据)。一旦建立了湖,你就可以把这些水(数据)用于各种用途:发电、饮用以及各种消遣(预测分析,机器学习,网络安全等等)。


2017年,随着Hadoop业务的收紧,一切都会发生改变。对于数据的重复和快捷使用,各个企业要求获得更快的反应。在确定对人事、数据和基础设施的投资之前,企业会更加慎重地考虑业务成果。这将促进业务和IT之间的强强联合,而自助服务平台作为分析大数据资产的工具将获得更深入的认可。



4. 成熟的架构拒绝通用型框架


Hadoop不再只是一个科学使用数据的批量处理平台,它已经成为专为特殊分析而存在的多用途引擎,甚至被用于日常工作负载的操作报告,而在以前,这项任务是由数据库来处理的。


2017年,企业将通过设计特有的案例结构来实现这些混合需求。在提交合适的数据策略之前,他们将研究用户角色模型、访问频率、数据速度和聚合级别等一系列的因素。这些现代化的参考架构将由需求驱动,他们将最好的自助服务数据预测工具(Hadoop的核心)和最终用户分析平台相结合,通过某种方式根据需求进行重新配置,这些架构的灵活性最终将推动技术革新。


5. 数据的多元化推动大数据投资,而非体量和速率


Gartner将大数据定义为“三高”:高容量,高速率和高品类的信息资产。New Vantage Partners最新调查结果显示:随着大数据“三高”的增长,多元化正成为大数据投资的主要推动力。


随着企业寻求整合更多资源并关注大数据的“长尾效应”,这一趋势将更加明显。从JSON到嵌入式数据库(如NoSQL),到非平面数据(如Avro,Parquet,XML),数据格式正在成倍增长,连接器变得至关重要。2017年,即时连接分散资源的能力,将成为评估一个分析平台的重要方面。


6. Spark和机器学习让大数据更加流行


Apache Spark曾是Hadoop生态系统的一个组件,现在对于企业而言正成为大数据平台的选择。在一项对数据架构师、IT经理和BI分析师的调查中,将近70%的受访者支持Spark多于现存的MapReduce(分布式计算系统),MapReduce是批量导向的并行处理,但不适合交互式应用程序和实时流处理。


得益于以大数据为基础的超级计算机的能力,这些能够提供机器学习、AI、图形算法等性能的平台获得了极大的提升。Microsoft Azure机器学习易于上手,并能将数据迅速集成到现有的Microsoft平台,因而Microsoft Azure机器学习值得一提。向大众开放机器学习将有助于创建更多的模型,生成PB级数据应用程序。随着机器学习和系统日益智能化,自助服务软件提供商们更加引起企业注意,他们在让大数据更好地受用于最终用户方面至关重要。



7. 物联网、云服务和大数据将为自助服务提供新机遇


2017年,似乎一切东西都将有传感器,把信息发送回原来的地方。物联网将生成大量结构化和非结构化的数据,而且数据的增长式分享将部署在云服务上。数据通常是异构的,并且存在于多个关系和非关系系统中,例如Hadoop集群和NoSQL数据库。


虽然数据储存获得了创新,管理服务加快了数据获取的进程,但访问和理解数据本身仍然带来“最后一公里”的挑战。因此,对于无缝连接和组合各种云服务数据源的分析工具的要求变得更加严格。此类工具让企业得以搜索到储存在任何地方的数据资源,从而帮助企业发现隐藏在物联网投资背后的机会。


8. 最终用户塑造大数据令自助数据预处理变成主流


Hadoop数据如何落地,为企业用户所用,是当下最大的挑战之一。自助服务分析平台的兴起加速了这一进程。但企业用户希望进一步简化数据分析的流程和复杂性,尤其在处理一系列数据类型和格式时,这需求显得尤为重要。


便捷的自助服务数据预处理工具不仅可以在源头预处理Hadoop数据,而且还使数据作为快照来用,从而进行快速简单的探索。我们从Alteryx、Trifacta和Paxata等专注于终端用户大数据预处理的企业身上,看到了自助服务数据预处理工具的创新空间。这些工具降低了后期Hadoop的采用者和落后者的进入门槛,并将在2017年体现更大价值。



9. 大数据成长:Hadoop增加了企业标准


Hadoop将逐渐成为企业IT标志的核心部分,这是我们可以看到的一个增长趋势。在2017年,围绕企业系统安全和管理的投资将是一大热点。


Apache Sentry提供了的系统,让我们可以在这个系统里,对储存在Hadoop集群上的数据和元数据进行细致的、按需分配的授权。作为数据管理方案的一部分,Apache Atlas让企业可以在数据生态系统中实行统一的数据分类。Apache Ranger为Hadoop提供集中式安全管理。


客户开始期望从企业级的RDBMS平台获取这些性能。这些性能走在新兴大数据技术的前沿,有助于消除了企业技术更新迭代方面的其他障碍。


10. 元数据目录的建立帮助人们筛选出具有分析价值的大数据


长久以来,由于海量的数据处理起来十分繁琐,很多公司抛弃了大数据分析。通过Hadoop,他们可以处理大量的数据,但是这些数据通常没有以一种清晰的方式组合在一起。


元数据目录可以帮助用户发现和理解相关数据,这些数据可以使用自助服务工具进行分析和使用。Alation和Waterline此类公司填补了客户这方面的需求,它们利用机器学习来自动处理在Hadoop里发现的数据。


Alation和Waterline等公司使用标签对元数据进行编目,标明数据资产之间的关联,甚至提供通过UIs查询出的建议,这大大缩短了数据使用者和管理者查找数据以及准确查询数据的时间。


自助服务平台的出现,作为自助服务分析的自然延伸,在2017年,将会受到更多的关注和重视。


文章翻译自:Tableau