当前位置：首页 > news >正文

Scala爬虫如何实时采集天气数据？

news 2025/10/26 21:52:07

这是一个基本的Scala爬虫程序，使用了Scala的http library来发送HTTP请求和获取网页内容。在爬取天气预报信息时，我们首先需要创建一个代理对象proxy，并将其用于发送HTTP请求。然后，我们使用http库的GET方法获取网页内容，并将结果存储在变量response中。然后，我们解析网页内容，提取出我们需要的信息，例如天气预报。最后，我们将获取到的信息打印出来。

在这里插入图片描述

代码如下：

import java.net.URL
import org.apache.http.HttpHost
import org.apache.http.client.config.RequestConfig
import org.apache.http.client.methods.CloseableHttpResponse
import org.apache.http.client.methods.HttpGet
import org.apache.http.impl.client.CloseableHttpClient
import org.apache.http.impl.client.HttpClients
import org.apache.http.util.EntityUtils
import scala.io.Source

object WeatherSpider {
  implicit val httpHost = HttpHost("www.duoip.cn", 8000, "http")
  implicit val requestConfig = RequestConfig.custom()
    .setConnectTimeout(10000)
    .setSocketTimeout(10000)
    .build()

  def main(args: Array[String]): Unit = {
    val proxy = HttpHost(httpHost.getHostName, httpHost.getPort, httpHost.getScheme)
    val httpClients = HttpClients.createDefault()

    val response = httpClients.execute(new HttpGet(new URL("http://www.weather.com.cn/").toString))
    val content = EntityUtils.toString(response.getEntity(), "UTF-8")

    // 解析网页内容，提取天气预报信息
    val weatherContent = content.substring(content.indexOf("<div class='weather'>") + 12, content.indexOf("</div>"))
    println(weatherContent)
  }
}