当前位置：首页 > news >正文

Jsoup 教程：从基础到爬虫实战

news 2025/9/14 23:57:39

Jsoup 教程：从基础到爬虫实战

一、Jsoup 简介

Jsoup 是一个强大的 Java 库，专门用于解析和处理 HTML 数据。它能够轻松解析 URL 或 HTML 字符串，提供便捷的 API 让你通过 DOM、CSS 选择器以及类似 jQuery 的操作方法提取和操作数据。Jsoup 的设计目标是让 Java 开发者能够快速地进行网页抓取和数据处理，是开发爬虫的常用工具。

二、环境搭建

引入依赖

如果你使用 Maven，在 pom.xml 中添加如下依赖：

<dependency>
    <groupId>org.jsoup</groupId>
    <artifactId>jsoup</artifactId>
    <version>1.15.4</version>
</dependency>

如果使用 Gradle，在 build.gradle 中添加：

implementation 'org.jsoup:jsoup:1.15.4'

配置 Java 环境

Jsoup 是纯 Java 编写的，因此只需确保你的 Java 环境已正确配置，且 Java 版本不低于 8。

三、Jsoup 基础用法

1. 解析 URL

通过 Jsoup 连接到一个 URL，获取网页并解析其内容非常简单。以下代码展示了如何从一个网页获取标题：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;

public class JsoupExample {
    public static void main(String[] args) {
        try {
            // 连接到目标网页，并解析为 Document 对象
            Document doc = Jsoup.connect("https://www.example.com").get();
            // 获取并打印网页标题
            System.out.println(doc.title());
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

2. 解析 HTML 字符串

除了通过 URL 解析网页内容，你还可以通过 Jsoup 解析 HTML 字符串。例如：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;

public class JsoupStringExample {
    public static void main(String[] args) {
        String html = "<html><body><h1>这是一个标题</h1></body></html>";
        Document doc = Jsoup.parse(html);
        System.out.println(doc.select("h1").text());  // 输出：这是一个标题
    }
}

四、基础爬虫手段

1. 获取网页元素

获取网页中的各类元素是爬虫的核心任务。Jsoup 提供了强大的 CSS 选择器支持，可以方便地抓取网页中的链接、图片、段落等元素。以下示例获取网页中所有的链接：

import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;
import java.io.IOException;

public class JsoupCrawlerExample {
    public static void main(String[] args) {
        try {
            Document doc = Jsoup.connect("https://www.example.com").get();
            Elements links = doc.select("a");  // 获取所有链接
            for (Element link : links) {
                System.out.println("链接文本: " + link.text());
                System.out.println("链接地址: " + link.attr("href"));
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}

2. 模拟表单提交

如果你需要模拟登录等操作，Jsoup 也可以帮助你提交表单数据。以下是一个模拟登录的例子：

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import java.io.IOException;
import java.util.HashMap;
import java.util.Map;

public class JsoupFormExample {
    public static void main(String[] args) {
        try {
            Connection conn = Jsoup.connect("https://www.example.com/login");
            Map<String, String> data = new HashMap<>();
            data.put("username", "your_username");
            data.put("password", "your_password");

            Document doc = conn.data(data).post();  // 提交表单
            System.out.println(doc.title());  // 输出响应页面的标题
        } catch (IOException e) {
            e.printStackTrace();
        }
    }
}