ItGo.me - 专注IT技术分享

首页 > Apache项目 > Nutch > Nutch调试常用命令

Nutch调试常用命令

时间:2016-03-09来源:网友分享 点击:

1、查看crawldb命令:
 $bin/nutch readdb <crawldb> (-stats | -dump <out_dir> | -topN <nnnn> <out_dir> [<min>] | -url <url>)

  查看CrawlDb统计信息
  $bin/nutch readdb  myCrawl/crawldb -stats


    导出CrawlDb信息
    $bin/nutch readdb  myCrawl/crawldb -dump  myDump/crawldb
 
2、查看linkdb命令
    $bin/nutch readlinkdb <linkdb> (-dump <out_dir> | -url <url>)
    如:
    $bin/nutch readlinkdb myCrawl/linkdb -dump myDump/linkdb
    $cat myDump/linkdb/part-00000

3、查看segment内容
    bin/nutch readseg -dump myCrawl/segments/20160308205628/ myDump/segments
    vi myDump/segments/*

4、读取爬取的数据到solr索引
    $bin/nutch solrindex http://192.168.0.123:9090/solr/test/ myCrawl/crawldb/
   -linkdb myCrawl/linkdb/  -dir myCrawl/segments/ -filter -normalize

5、测试parse解析 parsechecker
    bin/nutch parsechecker http://haohaoxuexi.iteye.com/blog/2270446

6、测试index索引 indexchecker
  包含了步骤parse
    bin/nutch indexchecker http://haohaoxuexi.iteye.com/blog/2270446

7、执行crawl所有相关命令 (包含抓取和加入solr索引中)
    crawl <seedDir> <crawlDir> <solrURL> <numberOfRounds>
    bin/crawl  urls/ myCrawl/ http://192.168.0.123:9090/solr/test/  1

nutch工作原理、工作流程图
nutch
Nutch调试常用命令

Nutch常用管理命令 ./bin/nutch readdb myCrawl/crawldb -stats 显示crawldb的统计信息 ./bin/nutch readdb myCrawl/crawldb -dump crawlUrlInfo 导出每个url的信息到crawlUrlInfo文件夹中...

nutch https配置

nutch https配置。nutch 抓取 https页面。只需要在文件nutch-site.xml的plugin.includes元素中加入protocol-httpclient...

Nutch常用管理命令 ./bin/nutch readdb myCrawl/crawldb -stats 显示crawldb的统计信息 ./bin/nutch readdb myCrawl/crawldb -dump crawlUrlInfo 导出每个url的信息到crawlUrlInfo文件夹中
------分隔线----------------------------