中国领先的IT技术网站
|
|

Spark 2.0面纱半揭,相关细节引人遐想

在上周召开的Spark东部峰会上,Databricks公司CTO兼Spark创始人Matei Zaharia谈到了即将出炉的Spark 2.0,其将包含三大核心转变。

作者:核子可乐译来源:51CTO.com|2016-02-24 09:29

沙龙活动 | 去哪儿、陌陌、ThoughtWorks在自动化运维中的实践!10.28不见不散!


【51CTO.com快译】Spark已经以暴风骤雨之势席卷整个大数据领域。那么下一个内存内引擎选项会是什么?Spark背后的主要商业支持方Databricks对此给出了一点提示。

Spark 2.0面纱半揭,相关细节引人遐想

在上周召开的Spark东部峰会上,Databricks公司发布了一系列相关提示,旨在探讨内存内数据处理工具Spark的未来发展方向。该公司作为Spark项目背后的核心商业支持方,在该项技术成果的演进道路上扮演着重要角色。

Databricks的托管Spark平台Databricks Cloud目前已经提供订阅服务。为了进一步简化该云环境中的Spark上手难度,Databricks公布了一套免费层,即这套平台的社区版本。虽然目前此版本尚处于beta测试阶段,但其通用版本预计将在今年年中与广大用户见面。

Databricks公司将该社区版本明确定位为付费产品版本的过渡手段,并指出其将“帮助用户以无缝化方式将自身原型设计过渡至完整Databricks平台之上的生产性应用程序。”

Databricks公司亦决心始终紧跟Spark的发展步伐。通过此次Spark峰会主题演讲发布的一系列演示资料,Databricks公司CTO兼Spark创始人Matei Zaharia谈到了即将出炉的Spark 2.0。其将包含以下三大核心转变:利用Tungsten项目的下一发展阶段解决Java内存处理局限,从而加快Spark运行速度; 将Spark改进为一套实时数据流系统; 将Spark当前使用的结构化数据API(包括Dataset与DataFrame)统一为单一API。

不过此次演讲未被提及、但却广受Spark支持者关注的一项细节在于,Spark要如何进一步与Apache Arrow加以结合——这一全新项目旨在为列式数据提供内存内版本,从而实现快速访问成效。

这一切都可谓真正令人兴奋且意义重大的改进。特别是Tungsten项目所代表的方案能够显著加快其它由Java语言编写而成的大数据项目的运行速度。

目前,该公司宣称其已经拥有200家付费客户,并自信地表示其将专注于推动Databricks平台而非将精力分散至其它项目。

不过Databricks公司并不是惟一一家Spark参与厂商。IBM公司就专门将Spark作为自身大数据发展战略中的核心组成部分,旨在立足于其Bluemix云提供“Spark即服务”方案。过去一年当中,Spark项目已经从Hadoop手中夺过了大数据首选引擎的桂冠,而Databricks公司也将在新的发展阶段面临更为严峻的项目演进竞争。

原文标题:Databricks offers a glimpse of Spark 2.0

【51CTO译稿,合作站点转载请注明原文译者和出处为51CTO.com】

【编辑推荐】

  1. Hadoop/Spark生态圈里的新气象
  2. Hadoop之父Doug Cutting眼中大数据技术的未来
  3. 2016年大数据到底还算不算个 “东西” (附2016 大数据版图)
  4. Spark 是否真的比 MapReduce 技高一筹
  5. 走近Palantir:最神秘的大数据公司
【责任编辑:Ophira TEL:(010)68476606】

点赞 0
分享:
大家都在看
猜你喜欢

热门职位+更多

读 书 +更多

网管员必读—超级网管经验谈(第2版)

本书的第1版获得过“2006年度全行业优秀畅销品种奖”。全书共15章,分别介绍了网管员职责和应具备的工作习惯、共享上网与访问控制方法、子...

订阅51CTO邮刊

点击这里查看样刊

订阅51CTO邮刊
× Python最火的编程语言