意见箱
恒创运营部门将仔细参阅您的意见和建议,必要时将通过预留邮箱与您保持联络。感谢您的支持!
意见/建议
提交建议

Apache Drill改进大数据SQL查询引擎

来源:恒创科技 编辑:恒创科技编辑部
2022-09-06 17:05:13

开源Apache Drill项目的1.19版本现已正式发布。

该更新于6月首次推出,带来改进的性能和新的数据连接器功能。

Apache Drill是SQL 查询引擎,可用于 NoSQL以及云存储和数据湖。Apache Drill 1.19 版本包括新连接器,可用于Elasticsearch、Splunk 和 Apache Cassandra。Drill 现在还可以更轻松地与 Apache Airflow 集成,后者是日益流行的工作流管理平台。


Apache Drill改进大数据SQL查询引擎

Gartne分析师Merv Adrian指出,Drill仍然是受欢迎且活跃的Apache项目,并且是HP的Ezmeral Data Fabric的一部分。同时,开源社区的努力给企业数据管理带领积极影响。

Adrian 称:“随着商业化者提供更加用户友好型的面向企业的产品,该技术被推广到技术水平较低的用户,广大用户丰富的创造力继续推动技术向前发展。我们看到越来越多的公司开始使用Apache Drill,这说明了在竞争激烈的公司中持续的DIY心态,这些公司继续将开源数据管理软件视为潜在支柱。”

Apache Drill如何适应数据环境

从本质上讲,Drill是分布式交互式SQL查询引擎,使用户能够将其指向数据,然后使用标准SQL进行查询。

Apache Drill副总裁兼企业数据平台供应商的CE兼联合创始Charles Givre表示:“Drill 的学习曲线非常低,它很容易使用,从笔记本电脑上的单个节点到大型集群。Drill 是为交互式查询而构建,但它不是为大型 ETL [提取、转换和加载]作业而构建,并且缺乏Apache Spark的一些弹性。”

Givre 指出,我们可以很容易将Drill连接到云数据湖(例如 Amazon Simple Storage Service),而且Drill还可以连接到Microsoft Azure和Google Cloud。他补充说,目前我们正在努力使Drill能够连接到其他云数据,例如 Dropbox、OneDrive和Oracle Cloud。

Apache Drill 1.19中的新功能

最新更新中的新功能包括用于Elasticsearch、Splunk 和 Cassandra的连接器。Givre说这些插件比以前版本中的连接器更先进。他特别指出,与其他存储插件相比,下推到源系统的查询已经更加优化。

Givre 称:“最终,这将在查询这些源系统时带来更好的性能。”

Givre 强调的另一个主要贡献是XML格式插件,它现在随Drill一起提供。Givre解释说,用户现在可以直接查询XML文件,包括深度嵌套的文件,而无需使用标准SQL定义模式。

他补充说,REST插件也添加了XML功能,这意味着用户可以查询返回XML的API。

Givre 表示:“REST阅读器得到了极大的改进,这意味着使用Drill查询REST API背后的数据相对容易。”

他说他预计未来的Apache Drill 版本将为不同的数据源添加更多连接器。未来可能的连接器包括用于Delta Lake项目的连接器,该项目由Databricks创建,现在是Linux基金会运行的开源项目。

Givre 指出:“我估计,随着越来越多的人使用Drill,我们将继续看到更多与主流分析工具的集成。”

上一篇: 租用美国服务器:潜在的风险与应对策略。 下一篇: NoSQL数据库类型说明:列式数据库