当前位置: 首页 > wzjs >正文

南通企业网站制作杭州外贸网站建设公司排名

南通企业网站制作,杭州外贸网站建设公司排名,地产网站设计,做盗版电影网站赚钱吗1. 创建 Spring Boot 项目 使用 Spring Initializr 创建一个 Spring Boot 项目&#xff0c;选择需要的依赖&#xff0c;如 Spring Web 等。 2. 添加 WebMagic 依赖 在项目的 pom.xml 文件中添加 WebMagic 的核心和扩展依赖&#xff1a; <dependency><groupId>u…

1. 创建 Spring Boot 项目

使用 Spring Initializr 创建一个 Spring Boot 项目,选择需要的依赖,如 Spring Web 等。

2. 添加 WebMagic 依赖

在项目的 pom.xml 文件中添加 WebMagic 的核心和扩展依赖:

<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-core</artifactId><version>0.10.0</version>
</dependency>
<dependency><groupId>us.codecraft</groupId><artifactId>webmagic-extension</artifactId><version>0.10.0</version>
</dependency>

3. 编写爬虫处理器

创建一个类实现 PageProcessor 接口,重写 process 方法和 getSite 方法。

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;public class MyPageProcessor implements PageProcessor {// 抓取网站的相关配置private Site site = Site.me().setRetryTimes(3).setSleepTime(1000);@Overridepublic void process(Page page) {// 定义如何抽取页面信息,并保存下来page.putField("title", page.getHtml().xpath("//title/text()").toString());page.putField("content", page.getHtml().css("div.content").toString());// 从页面发现后续的 url 地址来抓取page.addTargetRequests(page.getHtml().css("a", "href").all());}@Overridepublic Site getSite() {return site;}public static void main(String[] args) {Spider.create(new MyPageProcessor()).run();}
}

4. 配置 Pipeline

Pipeline 用于处理爬取到的数据。可以创建一个自定义的 Pipeline,将数据存储到数据库或其他位置。

import us.codecraft.webmagic.ResultItems;
import us.codecraft.webmagic.Task;
import us.codecraft.webmagic.pipeline.Pipeline;public class MyPipeline implements Pipeline {@Overridepublic void process(ResultItems resultItems, Task task) {// 获取爬取的数据String title = resultItems.get("title");String content = resultItems.get("content");// 将数据存储到数据库或其他操作System.out.println("标题:" + title + ", 内容:" + content);}
}

5. 启动爬虫

在 Spring Boot 的启动类中,调用爬虫的启动方法。

import org.springframework.boot.SpringApplication;
import org.springframework.boot.autoconfigure.SpringBootApplication;
import us.codecraft.webmagic.Spider;@SpringBootApplication
public class Application {public static void main(String[] args) {SpringApplication.run(Application.class, args);// 启动爬虫Spider.create(new MyPageProcessor()).addPipeline(new MyPipeline()).run();}
}

6. 注意事项

  • 网站反爬虫机制:在爬取网站时,要注意遵守网站的规则和反爬虫机制,合理设置爬取的间隔时间和重试次数,避免对网站造成过大压力。

  • 数据存储:根据实际需求选择合适的数据存储方式,如数据库、文件等,并在 Pipeline 中实现相应的存储逻辑。

  • 异常处理:在爬虫过程中可能会出现网络异常、解析异常等情况,需要添加适当的异常处理逻辑,保证爬虫的稳定运行。


文章转载自:

http://55c2OB4D.pqsys.cn
http://9CHBf7TY.pqsys.cn
http://YGKPYncw.pqsys.cn
http://RSzceGe8.pqsys.cn
http://kHGsC9nV.pqsys.cn
http://fY5xql8S.pqsys.cn
http://PkMxYNrR.pqsys.cn
http://jiRdwJg8.pqsys.cn
http://bNEjTpgS.pqsys.cn
http://XhvmXavF.pqsys.cn
http://T6rGGPw3.pqsys.cn
http://zrczhihB.pqsys.cn
http://tv2xI1SH.pqsys.cn
http://9UuYZEzu.pqsys.cn
http://x6ZPcbL7.pqsys.cn
http://3wFqLxao.pqsys.cn
http://8dkqNzPi.pqsys.cn
http://SyP7kL59.pqsys.cn
http://79rfjrmD.pqsys.cn
http://WKJY5Zdx.pqsys.cn
http://CvHAcPpl.pqsys.cn
http://Hg71kWTh.pqsys.cn
http://9JWBNmUH.pqsys.cn
http://Y8U97pxq.pqsys.cn
http://oyEeKK7e.pqsys.cn
http://u6kiyioU.pqsys.cn
http://dIFKVp1N.pqsys.cn
http://AYxVGfOF.pqsys.cn
http://AijCeYvF.pqsys.cn
http://Kpnt9er7.pqsys.cn
http://www.dtcms.com/wzjs/748274.html

相关文章:

  • 专业建站商公司简介简短点的
  • 电子商务网站概念wordpress如何显示摘要
  • 怎么做监控网站网站界面设计内容
  • ps做的网站首页环球资源网入驻费用
  • 做多个网站 买vps百度下载文章转wordpress
  • 上海做网站那家好做美工参考网站
  • 台州网站设计开发能推广的平台有哪些
  • 做网站常见问题模板中软属于国企还是央企
  • 怎么做视频网站教程西安公司网站如何建设
  • 网站源码下载网网站篡改搜索引擎js
  • 贵州网站建站做微信的微网站费用多少
  • 怎么样能够为一个网站做推广自动发货网站建设
  • 简历制作网站哪个好市场监督管理局职责范围
  • flash属于网页制作平台吗seo技术分享免费咨询
  • 青岛建立网站电话柳州做网站有kv
  • 网站商城怎么做广州企业网站推广
  • 外贸黄页网站建设工程项目管理中心
  • 跨境电商网站开发技术wordpress拖拽式编辑器
  • 公司网站建设教程注册城乡规划师有什么用
  • 升级wordpress 错误:连接服务器时出错_请检查设置.鞍山seo公司
  • 可以帮忙做网站做公司微信网站开发需要什么知识
  • 嘉兴云推广网站网络设计师的发展前景
  • 公司做个网站最近一周的热点新闻
  • 门户网站的重要性网站开发项目的规划与设计文档
  • 做网站需要规划好什么做网站会有侵权
  • 模板网站跟仿站的区别展览展示搭建设计
  • pc和移动版网站学php搞网站开发
  • 网站域名重定向西安seo网站排名优化公司
  • 做网站亏本河东区腾讯网站建设
  • 济南建设网站公司wordpress 漏洞攻击