当前位置：首页 > news >正文

Kotlin编写Android爬虫教程

news 2025/7/8 10:26:03

当我使用Kotlin来编写一个简单的APP爬虫。但是由于在Android平台上直接进行网络请求和解析HTML可能涉及到一些限制（如网络权限、主线程限制等），所以对于我来说，我通常会使用一些库来简化操作。

在这里插入图片描述

在我这里经常使用Jsoup库解析HTML。以下是一个基础实现示例，包含网络请求、HTML解析和结果展示：

1、添加依赖 (app/build.gradle.kts)

dependencies {implementation("org.jsoup:jsoup:1.15.3") // HTML解析库implementation("com.squareup.okhttp3:okhttp:4.10.0") // 网络请求
}

2、AndroidManifest.xml 添加权限

<uses-permission android:name="android.permission.INTERNET" />

3、核心爬虫代码 (示例爬取书籍标题)

import android.os.Bundle
import androidx.appcompat.app.AppCompatActivity
import kotlinx.coroutines.CoroutineScope
import kotlinx.coroutines.Dispatchers
import kotlinx.coroutines.launch
import kotlinx.coroutines.withContext
import okhttp3.OkHttpClient
import okhttp3.Request
import org.jsoup.Jsoupclass MainActivity : AppCompatActivity() {override fun onCreate(savedInstanceState: Bundle?) {super.onCreate(savedInstanceState)setContentView(R.layout.activity_main)// 启动爬虫crawlData("https://books.toscrape.com/")}private fun crawlData(url: String) {CoroutineScope(Dispatchers.IO).launch {try {// 1. 获取网页HTMLval html = fetchHtml(url)// 2. 解析数据val bookTitles = parseHtml(html)// 3. 主线程更新UIwithContext(Dispatchers.Main) {// 此处替换为你的UI更新代码println("爬取结果: ${bookTitles.joinToString()}")}} catch (e: Exception) {e.printStackTrace()}}}private fun fetchHtml(url: String): String {val client = OkHttpClient()val request = Request.Builder().url(url).build()return client.newCall(request).execute().use { response ->if (!response.isSuccessful) throw Exception("请求失败: ${response.code}")response.body?.string() ?: throw Exception("空响应")}}private fun parseHtml(html: String): List<String> {val doc = Jsoup.parse(html)return doc.select("article.product_pod h3 a").map { it.attr("title") }}
}

4、功能说明

网络请求：使用OkHttp获取网页内容
HTML解析：通过Jsoup CSS选择器提取书籍标题
异步处理：使用协程避免主线程阻塞
数据提取：从CSS选择器获取属性值

5、高级功能扩展

// 如果需要处理动态加载内容（如JavaScript渲染）：
implementation("org.seleniumhq.selenium:selenium-android-driver:4.3.0")// 处理分页
fun crawlMultiPage(baseUrl: String, pages: Int) {(1..pages).forEach { page ->crawlData("$baseUrl/page-$page.html")}
}// 设置请求头模拟浏览器
val request = Request.Builder().url(url).header("User-Agent", "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36...").build()