Hadoop开发中常用工具用法解析

开发 架构 Hadoop
Hadoop相信大家有所了解,那么你对Hadoop开发是否熟悉,这里就向大家介绍一下Hadoop开发常用的一些工具,希望通过本文的介绍,大家对Hadoop开发开发有更深入的认识。

本节和大家学习一下Hadoop开发中常用的工具InputFormat和OutputFormat使用,相信通过本节的学习大家能够掌握更多关于Hadoop开发方面的知识,让我们一起来学习吧。首先我们来看一下Hadoop的概念。

Hadoop概念

一个分布式系统基础架构,由Apache基金会开发。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力高速运算和存储。简单地说来,Hadoop是一个可以更

容易开发和运行处理大规模数据的软件平台。Hadoop实现了一个分布式文件系统(HadoopDistributedFileSystem),简称HDFS。HDFS有着高容错性(fault-tolerent)的特点,并且设计用

来部署在低廉的(low-cost)硬件上。而且它提供高传输率(highthroughput)来访问应用程序的数据,适合那些有着超大数据集(largedataset)的应用程序。HDFS放宽了(relax)POSIX

的要求(requirements)这样可以流的形式访问(streamingaccess)文件系统中的数据。下面我们开始介绍Hadoop开发中常用的工具InputFormat和OutputFormat。

InputFormat和OutputFormat

Hadoop中的MapReduce框架依赖InputFormat提供数据,依赖OutputFormat输出数据;每一个MapReduce程序都离不开他们。

Hadoop提供了一系列InputFormat和OutputFormat方便开发,本文介绍几种常用的。TextInputFormat用于读取纯文本文件,文件被分为一系列以LF或者CR结束的行,key是每一行的位置

(偏移量,LongWritable类型),value是每一行的内容,Text类型。KeyValueTextInputFormat同样用于读取文件,如果行被分隔符(缺省是tab)分割为两部分,***部分为key,剩下的部分为

value;如果没有分隔符,整行作为key,value为空SequenceFileInputFormat用于读取sequencefile。sequencefile是Hadoop用于存储数据自定义格式的binary文件。它有两个子类:

SequenceFileAsBinaryInputFormat,将key和value以BytesWritable的类型读出;SequenceFileAsTextInputFormat,将key和value以Text的类型读出。SequenceFileInputFilter根据filter从

sequence文件中取得部分满足条件的数据,通过setFilterClass指定Filter,内置了三种Filter,RegexFilter取key值满足指定的正则表达式的记录;PercentFilter通过指定参数f,取记录行数%

f==0的记录;MD5Filter通过指定参数f,取MD5(key)%f==0的记录。NLineInputFormat0.18.x新加入,可以将文件以行为单位进行split,比如文件的每一行对应一个map。得到的key是每一行

的位置(偏移量,LongWritable类型),value是每一行的内容,Text类型。CompositeInputFormat,用于多个数据源的join。TextOutputFormat,输出到纯文本文件,格式为key+""+value。

NullOutputFormat,hadoop中的/dev/null,将输出送进黑洞。

SequenceFileOutputFormat,输出到sequencefile格式文件。MultipleSequenceFileOutputFormat,MultipleTextOutputFormat,根据key将记录输出到不同的文件。DBInputFormat和

DBOutputFormat,从DB读取,输出到DB,预计将在0.19版本加入。本节关于Hadoop开发中常用InputFormat和OutputFormat相关内容介绍到这里。
 

【编辑推荐】

  1. 两种模式运行Hadoop分布式并行程序
  2. Hadoop命令手册使用指南
  3. 专家讲解 Hadoop:HBASE松散数据存储设计
  4. 两种模式运行Hadoop分布式并行程序
  5. Hadoop概念及其用法专家讲解

 

 

责任编辑:佚名 来源: csdn.net
相关推荐

2019-07-08 15:10:17

JS工具函数

2010-07-08 13:17:19

2011-02-21 12:44:05

Postfix

2010-06-12 13:59:12

2014-04-09 10:51:56

iOS开发常用工具

2021-02-05 23:23:55

Web开发工具

2019-02-13 14:58:43

cssjavascript前端

2011-04-08 17:24:05

c++工具编程

2012-04-16 13:37:57

cocos2d

2010-06-04 17:56:22

Linux 常用工具

2014-10-21 15:11:29

Android工具类源码

2019-03-25 19:13:37

MySQL常用工具数据库

2010-06-13 15:35:01

2020-02-12 07:40:09

Java常用工具

2009-02-11 08:58:50

常用软件.NET开发

2019-03-14 15:40:13

JavaScript CSS 工具

2018-01-30 18:49:16

前端JavascriptCSS

2009-01-04 11:55:09

Java数组Java常用工具Java类

2009-09-07 10:34:47

2010-04-29 10:22:11

Oracle exp
点赞
收藏

51CTO技术栈公众号