Spark 2.0面纱半揭,相关细节引人遐想

译文
大数据 Spark
在上周召开的Spark东部峰会上,Databricks公司CTO兼Spark创始人Matei Zaharia谈到了即将出炉的Spark 2.0,其将包含三大核心转变。

【51CTO.com快译】Spark已经以暴风骤雨之势席卷整个大数据领域。那么下一个内存内引擎选项会是什么?Spark背后的主要商业支持方Databricks对此给出了一点提示。

[[163086]]

在上周召开的Spark东部峰会上,Databricks公司发布了一系列相关提示,旨在探讨内存内数据处理工具Spark的未来发展方向。该公司作为Spark项目背后的核心商业支持方,在该项技术成果的演进道路上扮演着重要角色。

Databricks的托管Spark平台Databricks Cloud目前已经提供订阅服务。为了进一步简化该云环境中的Spark上手难度,Databricks公布了一套免费层,即这套平台的社区版本。虽然目前此版本尚处于beta测试阶段,但其通用版本预计将在今年年中与广大用户见面。

Databricks公司将该社区版本明确定位为付费产品版本的过渡手段,并指出其将“帮助用户以无缝化方式将自身原型设计过渡至完整Databricks平台之上的生产性应用程序。”

Databricks公司亦决心始终紧跟Spark的发展步伐。通过此次Spark峰会主题演讲发布的一系列演示资料,Databricks公司CTO兼Spark创始人Matei Zaharia谈到了即将出炉的Spark 2.0。其将包含以下三大核心转变:利用Tungsten项目的下一发展阶段解决Java内存处理局限,从而加快Spark运行速度; 将Spark改进为一套实时数据流系统; 将Spark当前使用的结构化数据API(包括Dataset与DataFrame)统一为单一API。

不过此次演讲未被提及、但却广受Spark支持者关注的一项细节在于,Spark要如何进一步与Apache Arrow加以结合——这一全新项目旨在为列式数据提供内存内版本,从而实现快速访问成效。

这一切都可谓真正令人兴奋且意义重大的改进。特别是Tungsten项目所代表的方案能够显著加快其它由Java语言编写而成的大数据项目的运行速度。

目前,该公司宣称其已经拥有200家付费客户,并自信地表示其将专注于推动Databricks平台而非将精力分散至其它项目。

不过Databricks公司并不是惟一一家Spark参与厂商。IBM公司就专门将Spark作为自身大数据发展战略中的核心组成部分,旨在立足于其Bluemix云提供“Spark即服务”方案。过去一年当中,Spark项目已经从Hadoop手中夺过了大数据***引擎的桂冠,而Databricks公司也将在新的发展阶段面临更为严峻的项目演进竞争。

原文标题:Databricks offers a glimpse of Spark 2.0

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

责任编辑:Ophira 来源: 51CTO.com
相关推荐

2012-08-03 09:03:31

Windows Ser微软

2010-01-07 10:22:46

戴尔高效数据中心

2021-06-02 17:19:16

华为MatePad Pro鸿蒙系统

2012-07-18 09:06:42

微软Office 2013

2009-11-30 17:40:17

VS2003 ASP

2018-02-25 04:58:00

2010-09-08 14:30:05

webOS 2.0webOSPalm Pre

2010-02-26 17:51:16

Silverlight

2019-12-03 09:27:03

机器人人工智能系统

2010-01-06 10:07:35

.NET Framew

2021-06-04 16:14:19

内存数据化存储

2010-07-05 16:36:33

2011-08-29 11:09:52

2012-07-24 14:30:58

Windows 8操作系统

2015-08-20 13:43:17

NFV网络功能虚拟化

2022-01-16 18:51:57

.NET 6Configurati配置

2009-08-04 13:39:43

ASP.NET 2.0

2009-07-17 16:21:26

社交相关性排序算法

2012-03-05 11:09:01

JavaClass

2022-06-20 14:52:19

AI机械
点赞
收藏

51CTO技术栈公众号