nutch使用

nutch使用nutch1.x(nutch1.11为例)抓取网页存储到本地bin/crawlurlscrawl2建索引bin/nutchsolrindexhttp://127.0.0.1:8983/solr/crawl/crawldb-linkdbcrawl/linkdbcrawl/segments/*nutch2.x(nutch2.2.1为例)mysqlmy.ini或my.c

nutch 1.x (nutch 1.11为例)

抓取网页存储到本地

bin/crawl  urls  crawl  2

建索引

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

nutch 2.x (nutch 2.2.1为例)

mysql

my.ini或my.cnf中修改编码:

[mysqld] character-set-server=utf8 [client]、[mysql] default-character-set=utf8

数据表字段映射在gora-sql-mapping.xml中配置。

配置ivy对mysql的支持,在ivy/ivy.xml中配置

<dependency org=”mysql” name=”mysql-connector-java” rev=”5.1.18″ conf=”*->default”/>
<dependency org="org.apache.gora" name="gora-core" rev="0.2.1" conf="*->default"/>
<dependency org="org.apache.gora" name="gora-sql" rev="0.1.1-incubating" conf="*->default" />

配置nutch数据连接设置gora.properties

gora.sqlstore.jdbc.driver=com.mysql.jdbc.Driver

gora.sqlstore.jdbc.url=jdbc:mysql://localhost:3306/nutch?createDatabaseIfNotExist=true

gora.sqlstore.jdbc.user=xxxx(MySQL用户名)

gora.sqlstore.jdbc.password=xxxx(MySQL密码)

修改nutch-site.xml(将nutch-default.xml另存为nutch-site.xml然后修改),设置http.agent.name、storage.data.store.class等。
并添加

<property> 
     <name>storage.data.store.class</name>
     <value>org.apache.gora.sql.store.SqlStore</value>
     <description>The Gora DataStore class for storing and retrieving data.
             Currently the following stores are available:.
     </description>
    </property>
<property>
    <name>generate.batch.id</name>
    <value>*</value>
</property

然后设置爬取网站。

执行爬取操作,爬取数据到数据库

bin/nutch crawl urls -depth 3 -topN 5

solr

今天的文章nutch使用分享到此就结束了,感谢您的阅读。

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/23929.html

(0)
编程小号编程小号

相关推荐

发表回复

您的电子邮箱地址不会被公开。 必填项已用*标注