大数据领域的热门新技术已有数十年的历史 SQL

日期:2018-06-19 浏览:13

尽管过去几年来 NoSQL 数据库有所增长,但SQL无处不在,无处不在。事实上,结构化查询语言似乎在一个一度似乎倾向于排除它的领域中占据优势: 大数据。

在最近举行的Hadoop峰会上,在围绕大数据分析发布的所有新产品和合作伙伴中,令人惊讶的趋势之一是一项已存在数十年的技术明显复苏。峰会上公司发布的许多公告都集中在使用SQL作为大数据分析的主要界面上。Hadoop峰会发言人、Concurrent公司前数据科学主管、现为中间层首席科学家的Paco Nathan说:「这里似乎没有一家Hadoop相关厂商正在推广SQL解决方案。」“其中有几个听起来太好了,不符合事实。

基于Hadoop Hadoop构建,是基于Google发表的关于MapReduce和Google文件系统技术的研究论文的开源批处理存储和分析引擎。它是许多大数据分析工具背后的基础技术,这些工具被用来筛选由Web访问、服务器日志和所有其他类型的数据流创建的大量信息。例如,Facebook在Hadoop集群中有超过30pb的数据,它为Hadoop (现在是Apache开源项目)创建了蜂巢查询前端。NSA的acculo数据库也建立在Hadoop之上,该数据库被该机构用来对情报数据进行实时分析。

但是Hadoop可能是一个很有挑战性的学习系统,因为它需要用户理解它的问题解决策略,称为MapReduce,以及支持MapReduce任务的编程语言。MapReduce使用成批并行处理作业对大量数据进行排序。另一方面,SQL几乎与每一个关系数据库系统和大量知道如何有效地使用它来挖掘和分析数据的人一起使用。尽管Facebook创建的Hive为Hadoop提供了类似SQL的前端,但它既没有实现完整的SQL语义,也没有特别快,因为它只是将查询转换为批量处理的Hadoop MapReduce作业。

在过去六个月中,供应商响应了对更有利于企业的分析的需求,宣布了一系列提供完整SQL查询功能的系统,这些系统比现有的Hive / Hadoop系统具有显著的性能改进。这些系统旨在允许对仓库大小的数据集进行完整的SQL查询,并且在大多数情况下,它们完全绕过Hadoop (尽管有些是混合方法)。允许大规模更快的SQL查询,使企业中更多人可以访问大数据分析,并适应现有工作流。

以下是正在进行的一些SQL大数据计划的示例:

Facebook Presto,一个提供到Facebook Hadoop数据仓库的直接SQL接口的实时查询引擎。Facebook计划今年秋天将Presto作为开源项目发布。亚马逊网络服务红移。该服务提供了一种基于SQL的数据仓库服务,可以处理对高达1.6pb的数据库的查询。HortonWorks Stinger initiative,旨在改进Hive的SQL接口并使Hive速度提高100倍。IBM的BigSQL,一个用于Hadoop的SQL查询引擎。BigSQL绕过MapReduce,针对只读查询针对Hadoop分布式文件系统运行,针对执行数据读写的事务查询针对HBase ( Hadoop数据库引擎)。EMC的HAWQ,该公司Hadoop的关键HD版本的SQL查询引擎。cloudera s Impala是去年10月推出的Hadoop的实时临时查询界面。Hadoop本身也即将进行一些更改,这些更改将使Hadoop数据的SQL查询变得更加容易。Hadoop 2.0将于今年晚些时候发布,它将Hadoop中的MapReduce代码替换为一个名为threak (又一个资源协商器)的模块化体系结构,该体系结构允许多个分析系统与MapReduce共存。