当前位置：首页 > news >正文

Java HttpClient实现简单网络爬虫

news 2025/9/27 0:58:29

今天我将使用Java的HttpClient（在Java 11及以上版本中内置）来编写一个入门级的网络爬虫示例。

这个示例将演示如何发送HTTP GET请求，获取响应内容，并处理可能出现的异常。

在这里插入图片描述

以下是一个基于Java HttpClient（Java 11+）的网络爬虫基础实现示例，包含详细注释和异常处理：

import java.net.URI;
import java.net.http.HttpClient;
import java.net.http.HttpRequest;
import java.net.http.HttpResponse;
import java.time.Duration;public class WebCrawlerExample {public static void main(String[] args) {// 目标URL（请替换为实际需要爬取的网站）String targetUrl = "https://example.com";try {String htmlContent = fetchHtmlContent(targetUrl);System.out.println("网页内容获取成功！");System.out.println("获取内容长度：" + htmlContent.length() + " 字符");// 这里可以添加内容解析逻辑// parseHtml(htmlContent);} catch (Exception e) {System.err.println("爬取失败: " + e.getMessage());}}/*** 使用HttpClient获取网页HTML内容* @param url 目标网址* @return 网页HTML字符串* @throws Exception 网络请求异常*/private static String fetchHtmlContent(String url) throws Exception {// 1. 创建HttpClient实例HttpClient client = HttpClient.newBuilder().version(HttpClient.Version.HTTP_2)  // 使用HTTP/2协议.connectTimeout(Duration.ofSeconds(10)) // 设置连接超时.followRedirects(HttpClient.Redirect.NORMAL) // 跟随重定向.build();// 2. 构建HTTP请求HttpRequest request = HttpRequest.newBuilder().uri(URI.create(url)).timeout(Duration.ofSeconds(15)) // 设置请求超时.header("User-Agent", "Mozilla/5.0 (compatible; MyCrawler/1.0)") // 设置UA标识.header("Accept", "text/html") // 指定接受HTML内容.GET() // GET请求.build();// 3. 发送请求并获取响应HttpResponse<String> response = client.send(request, HttpResponse.BodyHandlers.ofString());// 4. 检查HTTP状态码int statusCode = response.statusCode();if (statusCode != 200) {throw new RuntimeException("HTTP错误状态码: " + statusCode);}// 5. 返回HTML内容return response.body();}/*** （示例）HTML内容解析方法* @param html 网页HTML内容*//*private static void parseHtml(String html) {// 实际项目中可使用Jsoup等库解析HTMLSystem.out.println("解析HTML...");// 示例：简单提取标题String title = html.substring(html.indexOf("<title>") + 7, html.indexOf("</title>"));System.out.println("网页标题: " + title);}*/
}

关键组件说明：

HttpClient - Java 11+ 内置的HTTP客户端
- 支持HTTP/2和WebSocket
- 异步/同步两种请求模式
- 超时控制机制
请求配置：
- User-Agent：标识爬虫身份（建议遵守robots.txt规则）
- timeout：防止长时间阻塞
- 自动重定向处理
异常处理：
- 连接超时
- HTTP错误状态码（非200）
- 网络中断
- URL格式错误

扩展建议：

// 在HttpClient构建器中可添加：
.proxy(ProxySelector.of(new InetSocketAddress("proxy.com", 8080))) // 设置代理
.authenticator(Authenticator.getDefault()) // 认证支持// 异步请求示例：
client.sendAsync(request, HttpResponse.BodyHandlers.ofString()).thenApply(HttpResponse::body).thenAccept(System.out::println);

使用注意事项：

遵守robots.txt：
- 检查目标网站/robots.txt的爬取规则
- 例如：https://example.com/robots.txt

频率限制：

在循环请求时添加延迟：

Thread.sleep(1000); // 每次请求间隔1秒

内容解析：

建议使用Jsoup库解析HTML：

Document doc = Jsoup.parse(html);
Elements links = doc.select("a[href]");

错误重试：

int retry = 0;
while (retry < 3) {try {// 请求代码...break; // 成功则跳出循环} catch (Exception e) {retry++;Thread.sleep(2000); // 等待后重试}
}

完整项目建议添加：

用户代理轮换
IP代理池
分布式爬取
数据存储模块

以上就是今天我要说简单的入门级爬虫教程，总体的思路是这样，具体操作还得根据项目网站实际情况来做具体的部署，如果大家有啥疑问可以留言讨论。

查看全文

http://www.dtcms.com/a/241112.html

Spring Boot Admin监控

《创客匠人助力商学教育：从0到1的转型之路》

现有的 Redis 分布式锁库（如 Redisson）提供了哪些便利？

代码随想录算法训练营第60期第六十三天打卡

Python竞赛环境搭建全攻略

机械狗面对实际应用的挑战-自主SLAM导航

GB/T 43887-2024 核级柔性石墨板材检测

小智AI+MCP

打造高效能技术组织的逆向法则

Rsync+inotify+nfs实现数据实时备份方案

内网im，局域网环境下BeeWorks 如何保障数据安全？

昇腾CANN集合通信技术解读——细粒度分级流水算法

C++ 类基础：封装、继承、多态与多线程模板实现

突然无法调用scikit-learn、xgboost

【Ubuntu崩溃修复】

新品推广的四个阶段，做好新品推广从这四个方面出发

【机械视觉】Halcon—【十二、边缘提取】

达梦数据库CASE WHEN条件

PP-OCRv5 ubuntu20.04 OCR识别服务

博科FC交换机管理IP地址用户名密码

MCP和Function Calling

SpringCloud优势

力扣面试150题--蛇梯棋

Linux初步介绍

C#中LINQ技术：自然语言集成与统一数据操作的艺术

【题解-洛谷】B4292 [蓝桥杯青少年组省赛 2022] 路线

3D Web轻量化引擎HOOPS Communicator赋能一线场景，支持本地化与动态展示？

C语言中的段错误（Segmentation Fault）：底层原理及解决方法

蓝桥杯回文日期

BIO、NIO、AIO的区别

关键组件说明：

使用注意事项：

相关文章：