Apache Spark

开发 前端 Spark
Spark是个开源的数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。Spark与Hadoop一样,用于构建大规模、低延时的数据分析应用。Spark采用Scala语言实现,使用Scala作为应用框架。

代码托管地址: Apache

Spark是个开源的数据分析集群计算框架,最初由加州大学伯克利分校AMPLab开发,建立于HDFS之上。Spark与Hadoop一样,用于构建大规模、低延时的数据分析应用。Spark采用Scala语言实现,使用Scala作为应用框架。

Spark采用基于内存的分布式数据集,优化了迭代式的工作负载以及交互式查询。与Hadoop不同的是,Spark和Scala紧密集 成,Scala像管理本地collective对象那样管理分布式数据集。Spark支持分布式数据集上的迭代式任务,实际上可以在Hadoop文件系统 上与Hadoop一起运行(通过YARN、Mesos等实现)。

责任编辑:陈四芳 来源: 51CTO
相关推荐

2017-04-01 14:01:50

Apache Spar内存管理

2022-06-01 13:52:11

开源大数据

2016-12-20 09:47:38

Apache SparLambda架构

2017-06-26 15:00:17

2016-11-15 14:07:28

Apache SparLambdaHadoop

2017-10-10 17:00:11

SparkHadoop数据处理

2018-02-02 15:50:07

决策树Apache Spar数据

2014-03-26 10:52:24

Apache Spar

2020-06-28 13:54:22

Apache Spar窗口函数数据

2021-08-09 09:00:00

Kubernetes云计算架构

2018-03-05 17:29:52

SparkApache SparSpark 2.3

2018-08-09 11:06:39

Apache Spar内存模型

2019-10-14 10:09:28

ApacheHiveSpark

2016-11-29 09:27:22

Apache SparDashboard构建

2017-08-10 15:31:57

Apache Spar TensorFlow

2014-07-03 15:40:09

Apache Spar

2014-07-15 10:59:58

Spark代码跟读

2017-03-10 16:32:44

Apache Spar大数据工具

2020-08-11 07:00:00

大数据IT技术

2018-05-31 20:49:50

Spark堆内内存优化机制
点赞
收藏

51CTO技术栈公众号