当前位置: 首页 > wzjs >正文

宁波网站制作 收费数据库与网站

宁波网站制作 收费,数据库与网站,温州网站设计服务商,创意 国外 网站1. 创建 Spring Boot 项目 使用 Spring Initializr 创建一个 Spring Boot 项目&#xff0c;选择需要的依赖&#xff0c;如 Spring Web 等。 2. 添加 WebMagic 依赖 在项目的 pom.xml 文件中添加 WebMagic 的核心和扩展依赖&#xff1a; <dependency><groupId>u…

1. 创建 Spring Boot 项目

使用 Spring Initializr 创建一个 Spring Boot 项目,选择需要的依赖,如 Spring Web 等。

2. 添加 WebMagic 依赖

在项目的 pom.xml 文件中添加 WebMagic 的核心和扩展依赖:

<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.10.0</version>
</dependency>
<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-extension</artifactId><version>0.10.0</version>
</dependency>

3. 编写爬虫处理器

创建一个类实现 PageProcessor 接口,重写 process 方法和 getSite 方法。

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;public class MyPageProcessor implements PageProcessor {// 抓取网站的相关配置private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);@Overridepublic void process(Page page) {// 定义如何抽取页面信息,并保存下来page.putField("title", page.getHtml().xpath("//title/text()").toString());page.putField("content", page.getHtml().css("div.content").toString());// 从页面发现后续的 url 地址来抓取page.addTargetRequests(page.getHtml().css("a", "href").all());}@Overridepublic Site getSite() {return site;}public static void main(String[] args) {Spider.create(new MyPageProcessor()).run();}
}

4. 配置 Pipeline

Pipeline 用于处理爬取到的数据。可以创建一个自定义的 Pipeline,将数据存储到数据库或其他位置。

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;public class MyPipeline implements Pipeline {@Overridepublic void process(ResultItems resultItems, Task task) {// 获取爬取的数据String title = resultItems.get("title");String content = resultItems.get("content");// 将数据存储到数据库或其他操作System.out.println("标题:" + title + ", 内容:" + content);}
}

5. 启动爬虫

在 Spring Boot 的启动类中,调用爬虫的启动方法。

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import us.codecraft.webmagic.Spider;@SpringBootApplication
public class Application {public static void main(String[] args) {SpringApplication.run(Application.class, args);// 启动爬虫Spider.create(new MyPageProcessor()).addPipeline(new MyPipeline()).run();}
}

6. 注意事项

  • 网站反爬虫机制:在爬取网站时,要注意遵守网站的规则和反爬虫机制,合理设置爬取的间隔时间和重试次数,避免对网站造成过大压力。

  • 数据存储:根据实际需求选择合适的数据存储方式,如数据库、文件等,并在 Pipeline 中实现相应的存储逻辑。

  • 异常处理:在爬虫过程中可能会出现网络异常、解析异常等情况,需要添加适当的异常处理逻辑,保证爬虫的稳定运行。


文章转载自:

http://XTTOTgPT.xqnzn.cn
http://y0Oc5342.xqnzn.cn
http://8rlN0peK.xqnzn.cn
http://OAIHrcZd.xqnzn.cn
http://u6ZP0GGI.xqnzn.cn
http://4VIsIglg.xqnzn.cn
http://ikKUmQhI.xqnzn.cn
http://0u8au22O.xqnzn.cn
http://pFMryPGn.xqnzn.cn
http://6Xicm7eq.xqnzn.cn
http://EB7Bcdlk.xqnzn.cn
http://eWv5IdHr.xqnzn.cn
http://JmCsAWJd.xqnzn.cn
http://bmO5D4Dl.xqnzn.cn
http://8nkbrwVI.xqnzn.cn
http://4AcnIa5P.xqnzn.cn
http://ogTsJJPp.xqnzn.cn
http://3kCdQqJh.xqnzn.cn
http://UGgIgnqu.xqnzn.cn
http://eu2VLew7.xqnzn.cn
http://3uaoWxhP.xqnzn.cn
http://1LwNs0x0.xqnzn.cn
http://FpH6uyTq.xqnzn.cn
http://5e6FMd8D.xqnzn.cn
http://y6Xo93vC.xqnzn.cn
http://5fyH5Xjm.xqnzn.cn
http://8bGy57QC.xqnzn.cn
http://eU2g8gFa.xqnzn.cn
http://bmH7xQE8.xqnzn.cn
http://Z5qInHac.xqnzn.cn
http://www.dtcms.com/wzjs/688569.html

相关文章:

  • 青岛建设银行官方网站招商网站建设解决方案
  • 如何做网站教学外国网站建设
  • 德州网站建设哪家好公司营业执照可以做几个网站
  • 西安免费做网站wordpress干洗店模板
  • 大连网站建设新图闻wordpress 存储
  • 临安区规划建设局网站网站建设 临沂
  • 盐城网站建设哪家好wordpress 定制页面
  • 商城网站建设模板wordpress会员组
  • 郴州网站建设佳木斯做网站
  • 做众筹的网站有几个网站首页做30个关键词
  • php网站开发数据列表排重wordpress百度推送插件
  • 网站平台建设模板安徽省水利厅j建设网站
  • 渝北网站建设公司网站建设注意哪些
  • 广播电台网站建设板块长沙网站se0推广优化公司
  • 公司自己的网站叫什么淘宝怎么下载视频
  • 有哪些网站是响应式的设计一个简单的物联网系统
  • 国内免费视频素材网站有哪些移动端网站开发流程
  • 重庆网站关键词排名宁波公司名称大全
  • 佘山做网站wordpress采集网页文章
  • 做服装哪个网站图片多做教案比较好的网站
  • 如何给网站添加搜索关键字厦门seo排名扣费
  • 免费可信网站认证网站开发设计大概多少费用
  • 做恐怖网站更改wordpress登录图标
  • 哪个网站可以查到个人名下公司北京网站优化流程
  • 网站建设 流程图wordpress ico文件下载
  • 长春网站运做思路网页数据抓取
  • 现在还有网站做校内网吗wordpress503原因
  • 网站设计师培训wordpress积分充值插件
  • wordpress网站搬家换域名下载app赚钱的平台
  • 马达加工东莞网站建设昌平做网站公司