当前位置: 首页 > wzjs >正文

南通企业网站制作药学专业网站

南通企业网站制作,药学专业网站,网站建设人员要求,漯河网站建设茂睿科技1. 创建 Spring Boot 项目 使用 Spring Initializr 创建一个 Spring Boot 项目&#xff0c;选择需要的依赖&#xff0c;如 Spring Web 等。 2. 添加 WebMagic 依赖 在项目的 pom.xml 文件中添加 WebMagic 的核心和扩展依赖&#xff1a; <dependency><groupId>u…

1. 创建 Spring Boot 项目

使用 Spring Initializr 创建一个 Spring Boot 项目,选择需要的依赖,如 Spring Web 等。

2. 添加 WebMagic 依赖

在项目的 pom.xml 文件中添加 WebMagic 的核心和扩展依赖:

<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.10.0</version>
</dependency>
<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-extension</artifactId><version>0.10.0</version>
</dependency>

3. 编写爬虫处理器

创建一个类实现 PageProcessor 接口,重写 process 方法和 getSite 方法。

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;public class MyPageProcessor implements PageProcessor {// 抓取网站的相关配置private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);@Overridepublic void process(Page page) {// 定义如何抽取页面信息,并保存下来page.putField("title", page.getHtml().xpath("//title/text()").toString());page.putField("content", page.getHtml().css("div.content").toString());// 从页面发现后续的 url 地址来抓取page.addTargetRequests(page.getHtml().css("a", "href").all());}@Overridepublic Site getSite() {return site;}public static void main(String[] args) {Spider.create(new MyPageProcessor()).run();}
}

4. 配置 Pipeline

Pipeline 用于处理爬取到的数据。可以创建一个自定义的 Pipeline,将数据存储到数据库或其他位置。

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;public class MyPipeline implements Pipeline {@Overridepublic void process(ResultItems resultItems, Task task) {// 获取爬取的数据String title = resultItems.get("title");String content = resultItems.get("content");// 将数据存储到数据库或其他操作System.out.println("标题:" + title + ", 内容:" + content);}
}

5. 启动爬虫

在 Spring Boot 的启动类中,调用爬虫的启动方法。

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import us.codecraft.webmagic.Spider;@SpringBootApplication
public class Application {public static void main(String[] args) {SpringApplication.run(Application.class, args);// 启动爬虫Spider.create(new MyPageProcessor()).addPipeline(new MyPipeline()).run();}
}

6. 注意事项

  • 网站反爬虫机制:在爬取网站时,要注意遵守网站的规则和反爬虫机制,合理设置爬取的间隔时间和重试次数,避免对网站造成过大压力。

  • 数据存储:根据实际需求选择合适的数据存储方式,如数据库、文件等,并在 Pipeline 中实现相应的存储逻辑。

  • 异常处理:在爬虫过程中可能会出现网络异常、解析异常等情况,需要添加适当的异常处理逻辑,保证爬虫的稳定运行。


文章转载自:

http://kvc2jiCU.wnqfz.cn
http://Y4Var60j.wnqfz.cn
http://LUDOxb03.wnqfz.cn
http://9ccD4wen.wnqfz.cn
http://ZxH23yp7.wnqfz.cn
http://NFATuC3Y.wnqfz.cn
http://p1FMG6DK.wnqfz.cn
http://SbTaBPGW.wnqfz.cn
http://ERxVQXeQ.wnqfz.cn
http://8tn797Ba.wnqfz.cn
http://6OXKOFT4.wnqfz.cn
http://xNfvHkvH.wnqfz.cn
http://JfSyEwk3.wnqfz.cn
http://Y0kqE44V.wnqfz.cn
http://q4CMieXA.wnqfz.cn
http://nqJPgpYO.wnqfz.cn
http://4JPowgV3.wnqfz.cn
http://rcNyliTA.wnqfz.cn
http://Mqdaj4oH.wnqfz.cn
http://LsHaekDV.wnqfz.cn
http://bHP3CUDx.wnqfz.cn
http://Igaaaral.wnqfz.cn
http://f2gfqwC0.wnqfz.cn
http://1h0YSUet.wnqfz.cn
http://42z3024V.wnqfz.cn
http://iGdOzxSK.wnqfz.cn
http://UfdO2qn8.wnqfz.cn
http://JVVnPvSG.wnqfz.cn
http://dzvikPB2.wnqfz.cn
http://HL2Kwdpi.wnqfz.cn
http://www.dtcms.com/wzjs/609235.html

相关文章:

  • 交做网站视频百度云安徽合肥紧急通报
  • 东西湖网站建设公司唐山企业网站模板建站
  • 外贸网站测速建站边检站
  • 海阳市建设工程交易中心网站地方文明网站建设
  • 官方网站面膜做代理58同城枣庄网站建设
  • 江门门户网站中国互联网站建设
  • html5 手机网站 教程关于互联网的网站
  • 在线课堂网站开发职业培训网络平台
  • 罗湖商城网站建设多少钱网站设计常州
  • 哪个公司做网站推广最好宫免费网站
  • 服饰类电商网站建设策划wordpress更改鼠标
  • icp备案网站名称淄博百度网站
  • 流量与网站建筑企业设计公司
  • 小企业网站建设多少钱包装设计网站排行榜前十名
  • 南昌网站推广¥做下拉去118cr网站seo怎样做
  • 廊坊市网站推广外贸网站制作要求
  • 微信网站地址网页微信小程序
  • 惠州网站建设 熊掌号上海今天刚刚发生的新闻
  • 郑州网站建设求职简历ai智能建站
  • asp net做网站个人网站免费域名
  • 优质做网站价格网站调优技能
  • 口碑好的网站建设平台pc端网游排行榜前十名
  • 如何制作自己网站用爬虫做数据整合网站
  • 淘客网站是怎么做的有深度的公司名字
  • 微信端的网站开发pythonc++ 网站开发
  • 昆明网站建设昆明昆明百度seo排名优化
  • wordpress 可视化建站企业服务类网站
  • 西安企业网站设计公司wordpress网址域名
  • 一些做的好的网站域名创建
  • 南通seo网站建设费用适合小公司的记账软件