HadoopStudio中实现MapReduce应用

开发 架构 Hadoop
Hadoop相信大家应该有所了解,那么HadoopStudio呢,这里就向大家介绍一下HadoopStudio开发部署MapReduce应用,欢迎大家一起来学习。

在学习Hadoop的过程中,你可能会遇到HadoopStudio中开发部署MapReduce应用问题,这里向大家介绍一下,希望通过本节的介绍,大家能够掌握HadoopStudio下开发部署MapReduce应用的方法。

HadoopStudio开发部署MapReduce应用

HadoopStudio是基于Hadoop框架的MapReduce应用集成开发和部署环境。HadoopStudio以NetBeans模块插件的方式使用,可在NetBeans插件中心获取。开发者可以通过HadoopStudio的可视化界面,部署分布在不同节点的计算任务,并监控MapReduce处理过程中各阶段的输入、输出以及交互过程。

针对MapReduce任务执行过程的各要素,HadoopStudio提供了HDFS、JobTracker以及Cluster节点的配置工具。使用HadoopStudio配置之前,需要预先在目标机器上部署Hadoop作业执行环境,在UbuntuLinux上的Hadoop配置过程,已有详尽教程(单节点,多节点)可供参考。

在HadoopStudio中对作业节点配置,首先需要定义负责数据存储的Filesystems节点,可选节点包含本地磁盘访问、HDFS文件系统和AmazonS3连接三种方式。HDFS节点的配置,需要指定NameNode节点的地址、访问端口和登录用户名,其中登录用户名为可选项。对于目前***的r0.20版本,Filesystems节点的端口配置由conf/hadoop-site.xml改为在conf/core-site.xml中设定。

在HadoopCluster配置部分,添加远程计算节点对应的JobTracker,指定节点的地址,并在下拉列表中选择之前添加的Filesystems节点,添加的节点则会出现在Hadoop可用节点的列表中。在主节点计算任务启动之后,包含DataNode、TaskTracker、JobTracker、NameNode、SecondaryNameNode进程。对于数据处理,集群中结点由一个NameNode和若干DataNode组成,SecondaryNameNode为NameNode的备份。计算任务中,节点由一个JobTracker和若干TaskTracker组成,JobTracker负责任务调度,TaskTracker执行并行计算任务。TaskTracker须运行在DataNode上以获取用于计算的数据。

对于已编写的计算任务,HadoopStudio提供了简化的作业部署流程。首先在HadoopJobs中添加生成好的jar包(如Hadoop自带的Hadoop-*-examples.jar示例),之后选择要执行的主类并添加依赖项,并选择执行任务的目标Cluster节点和目标Filesystems后即可启动计算任务。同时,HadoopStudio提供了实时显示的MapReduce任务工作流视图,可显示任务执行过程中的作业类型、完成情况、执行状态、起止时间、报错信息以及输出结果等内容。

Hadoop应用开发方面,HadoopStudio将Hadoop类库进行打包,可直接在项目中添加所有依赖项。编码过程中,HadoopStudio为每种作业的提供了模板,并能够在代码编辑的同时自动对模板视图进行更新。

目前HadoopStudio支持Hadoop0.18.x版本的ClientAPI和Hadoop0.20.x的Client与Server的API,并且支持不同版本Hadoop的混合使用。但HadoopStudio目前的文档比较简单,感兴趣的朋友可以在freshmeat.net的项目站点跟踪HadoopStudio的***信息。

【编辑推荐】

  1. Hadoop创建Hbase表方法指导
  2. Hbase和Hadoop操作文件性能测试
  3. Hadoop集群与Hadoop性能优化
  4. Hadoop 从Yahoo向Google的技术转折
  5. Hadoop初探

 

责任编辑:佚名 来源: csdn.net
相关推荐

2014-11-13 09:39:15

mapreducetopNmapreduce效率

2010-06-03 16:32:09

Hadoop MapR

2014-10-15 16:32:43

MapReducehadoop

2015-03-24 15:08:21

mapreducehadoop

2010-06-07 13:35:16

Hadoop简介

2010-06-03 16:18:07

Hadoop MapR

2011-08-15 15:44:46

iPhone开发PDF

2009-02-09 10:06:03

并发控制Web应用悲观锁

2011-08-18 16:24:44

iPhone开发图片

2009-07-09 10:03:40

Servlet应用Weblogic环境

2011-08-16 15:48:37

iPhone开发抓图程序

2011-08-15 11:23:41

iPhone开发循环滚动UIScrollVie

2009-12-21 14:58:57

WCF用户密码认证

2013-06-21 15:07:22

2023-04-19 08:43:52

Python面向对象编程

2010-09-13 16:22:19

ulliCSS

2018-11-14 14:33:33

MapReduce数据集计算

2011-10-18 14:00:30

MapReduce分布式流式

2010-06-12 16:41:10

BlackBerry开

2018-07-04 09:59:23

Android评论回复
点赞
收藏

51CTO技术栈公众号