社区编辑申请
注册/登录
nutch+hadoop配置步骤及问题解决方法深入剖析
开发 架构 Hadoop
Hadoop相信大家有所了解了,这里向大家介绍一下nutch+hadoop配置使用问题,主要包括nutch+hadoop配置以及配置过程汇总遇到的问题,相信通过本文的介绍大家对nutch+hadoop配置有一定的认识。

本节向大家介绍nutch+hadoop配置方面的内容,主要有nutch+hadoop配置的步骤和配置时出现的问题及解决办法,欢迎大家一起来学习,相信通过本节的介绍你会越到不少有关Hadoop的知识。

nutch+hadoop配置使用

配置nutch+hadoop

1,下载nutch。如果不需要特别开发hadoop,则不需要下载hadoop。因为nutch里面带了hadoopcore包以及相关配置

2,建立目录(根据自己喜好)
/nutch
/search(nutchinstallationgoeshere)nutch安装到这里,也就是解压到这里
/filesystemhadoop的文件系统存放点
/local/crawl后放置索引用来search用的
/home(nutchuser'shomedirectory)如果你用系统用户,这个基本没用
/tomcat启动nutch.war用来search索引的app

3,conf/hadoop-env.sh一定要配置JAVA_HOME,否则系统起不来

4,配置master和slave的ssh,否则每次都要输入passwd
ssh-keygen-trsa
然后回车即可
cpid_rsa.pubauthorized_keys
(copy到其它的slave上)scp/nutch/home/.ssh/authorized_keysnutch@devcluster02:/nutch/home/.ssh/authorized_keys

5,将bin和conf下所有的.sh、nuch、hadoop文件dos2unix
dos2unix/nutch/search/bin/*.sh/nutch/search/bin/hadoop

配置hadoop-size.xml

6,记住要把master文件从nutch/hadoopcopy到这个nutch中,应该是bug。也就是说启动需要这个文件,文件内容为默认的localhost即可(如果是分布式,可能需要配置)

7,nutch+hadoop配置过程中需要格式化namenode
bin/hadoopnamenode-format #p#

8,启动:bin/start-all.sh

9,配置crawl(以配置一个网址lucene.apache.org为例)
 

  1. cd/nutch/search  
  2. mkdirurls  
  3. viurls/urllist.txthttp://lucene.apache.org  
  4. cd/nutch/search  
  5. bin/hadoopdfs-puturlsurls  
  6. cd/nutch/search  
  7. viconf/crawl-urlfilter.txt  
  8. changethelinethatreads:+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/  
  9. toread:+^http://([a-z0-9]*\.)*apache.org/  
  10.  

 

10,启动crawl
bin/nutchcrawlurls-dircrawled-depth3

11,查询
bin/hadoopdfs-copyToLocalcrawled/media/do/nutch/local/(crawled)将index的东西copy到以上配置的local中,因为search不能用dfs中搜索(从文档看是这样)

12,启动nutch.war,测试
vinutch-site.xmlnutch.war中classes下
starttomcat

注意点:
1,masters文件nutch原来没有,需要copy到conf下
2,crawl的log4j配置默认有问题,需要增加:
hadoop.log.dir=.
hadoop.log.file=hadoop.log
3,nutch1.0一定要配置nutch-site.xml。重新配置http.agent。default.xml里面已经存在。


nutch+hadoop配置使用时的问题:
1,运行hadoop程序时,中途我把它终止了,然后再向hdfs加文件或删除文件时,出现Namenodeisinsafemode错误:
rmr:org.apache.hadoop.dfs.SafeModeException:Cannotdelete/user/hadoop/input.Namenodeisinsafemode
解决的命令:
bin/hadoopdfsadmin-safemodeleave#关闭safemode
索引命令:
bin/nutchindexplainindex/paodingindexesplainindex/crawldbplainindex/linkdbplainindex/

segments/20090528132511plainindex/segments/20090528132525plainindex/segments/20090528132602
eg:
index:
bin/nutchindexcrawled/indexes_newcrawled/crawldbcrawled/linkdbcrawled/segments/20100313132517
merge:
bin/nutchmergecrawled/index_newcrawled/indexes_new
去重dedup:
bin/nutchdedupcrawled/index_new。本节关于nutch+hadoop配置使用介绍到这里。

【编辑推荐】

  1. Hadoop配置注意事项及命令使用经验总结
  2. Hadoop配置和启动Hadoop方法详解
  3. Hadoop文件系统如何快速安装?
  4. Hadoop配置指导手册
  5. Hadoop完全分布模式安装实现详解
责任编辑:佚名 来源: csdn.net

同话题下的热门内容

该不该将单体架构迁移到微服务?生成性对抗网络——数据生成的高级解决方案SpringBoot对Spring MVC都做了哪些事?(四)软件架构中的跨层缓存技术人生 | 如何设定业务目标SpringBoot:如何优雅地进行响应数据封装、异常处理?为什么策略梯度法在协作性MARL中如此高效?终于有人把灰度发布架构设计讲明白了

编辑推荐

终于有人把Elasticsearch原理讲透了!花了一个星期,我终于把RPC框架整明白了!拜托!面试不要再问我Spring Cloud底层原理陌陌基于K8s和Docker容器管理平台的架构实践收藏 | 第一次有人把“分布式事务”讲的这么简单明了
我收藏的内容
点赞
收藏

AISummit人工智能大会