2025年java爬虫系列（一）——爬虫入门[通俗易懂]

爬虫框架介绍

Heritrix

优势

劣势

简单demo地址

crawler4j

优势

劣势

简单demo地址

WebMagic

优势

劣势

简单demo地址

快速入门

seimicrawler

项目地址

简单爬虫实现

导入项目

编写爬虫

启动爬虫

同系列文章

爬虫框架介绍

java爬虫框架非常多，比如较早的有Heritrix，轻量级的crawler4j，还有现在最火的WebMagic。
他们各有各的优势和劣势，我这里顺便简单介绍一下吧。

Heritrix

优势

java的第一批爬虫框架，拥有独立的后台页面，可以实现界面操作去爬去网页。

劣势

相对其他框架，代码相对臃肿，上手难度较高，解析网页不如其他框架灵活。

简单demo地址

https://github.com/a252937166/Heritrix

crawler4j

优势

代码相当轻量级，可实现多线程爬取，上手难度低。

劣势

封装程度太低，很多功能需要开发者自己封装实现，多线程下，很容易重复爬取相同资源。

简单demo地址

https://github.com/a252937166/crawler4j

WebMagic

优势

这框架我们公司在用，各方面都比较完美吧，上手难度低，社区活跃度也较高，有问题可以得到及时反馈。

劣势

没有持久层框架的封装，需要自己实现。

简单demo地址

这个框架我没有自己的demo，大家可以去开发者的GitHub看看
https://github.com/code4craft/webmagic

快速入门

seimicrawler

我这里推荐使用seimicrawler，个人感觉这个框架配合JsoupXpath，解析网页真心非常方便，而且框架整合了spring，用起来也很顺手。

项目地址

中文官网地址：http://seimicrawler.org/
官方Github地址：https://github.com/zhegexiaohuozi/SeimiCrawler
自己修改项目地址：https://github.com/a252937166/seimicrawler/

简单爬虫实现

导入项目

下载源码，解压后把demo目录的文件单独拿出来，project目录不用管，里面是这个框架的一些源码，demo直接maven依赖它就可以了。
以maven的形式，导入demo，等待jar拉取玩，项目不报错就说明导入成功了。

编写爬虫

打开crawlers文件夹，里面每个文件都是一个爬虫，我们可以学习一下Basic，这是开发者写的最简单的爬虫demo，其他的都可以以此内推。

package com.ouyang.crawlers;



import cn.wanghaomiao.seimi.annotation.Crawler;

import cn.wanghaomiao.seimi.def.BaseSeimiCrawler;

import cn.wanghaomiao.seimi.struct.Request;

import cn.wanghaomiao.seimi.struct.Response;

import cn.wanghaomiao.xpath.model.JXDocument;



import java.util.HashMap;

import java.util.List;

import java.util.Map;



/** * @author 汪浩淼 [et.tw@163.com] * @since 2015/10/21. */

@Crawler(name = "basic")

public class Basic extends BaseSeimiCrawler { 

   

    @Override

    public String[] startUrls() {

        //两个是测试去重的

        return new String[]{

  

  "http://www.cnblogs.com/","http://www.cnblogs.com/"};

    }



    @Override

    public void start(Response response) {

        JXDocument doc = response.document();

        try {

            List

2025年java爬虫系列（一）——爬虫入门[通俗易懂]

爬虫框架介绍

Heritrix

优势

劣势

简单demo地址

crawler4j

优势

劣势

简单demo地址

WebMagic

优势

劣势

简单demo地址

快速入门

seimicrawler

项目地址

简单爬虫实现

导入项目

编写爬虫

启动爬虫

同系列文章

相关推荐