当前位置: 首页 > wzjs >正文

湖州 网站建设公司舆情报告

湖州 网站建设公司,舆情报告,个人养老金制度有望年内,哪个网站可以用来做读书笔记在爬取网页信息时,需要注意网页爬虫规范文件robots.txt eg:csdn的爬虫规范文件 csdn.net/robots.txt User-agent: 下面的Disallow规则适用于所有爬虫(即所有用户代理)。星号*是一个通配符,表示“所有”。 Disallow&…

        在爬取网页信息时,需要注意网页爬虫规范文件robots.txt

        eg:csdn的爬虫规范文件 csdn.net/robots.txt

User-agent: 
        下面的Disallow规则适用于所有爬虫(即所有用户代理)。星号*是一个通配符,表示“所有”。

Disallow:

        禁止爬虫访问的路径

1、首先下载python的相关类库

pip install requests
pip install beautifulsoup4

        requests 是一个http库,可以发送网络请求 。

        beautifulsoup4 主要用来解析html文档。

2、引入相关库 

import requests    
from bs4 import BeautifulSoup  

3、编写相关代码

url = 'https://www.....com'    
response = requests.get(url)    html_content = response.text  
soup = BeautifulSoup(html_content, 'html.parser')  titles = soup.select('h2') 
for title in titles:  print(title.text)

        url : 需要爬的页面路径

        response = requests.get(url)  发送get请求并接受

        html_content = response.text 取出页面主体

        soup = BeautifulSoup(html_content, 'html.parser')  由beautifulsoup对主体中的h5标签解析

        titles = soup.select('h2')   选择所有的h2标签

        最后循环遍历打印出所有h2 标签

4、测试

http://www.dtcms.com/wzjs/526649.html

相关文章:

  • 珠海免费建站微营销推广软件
  • 深圳做网站哪家公司好百度文库首页
  • 阿里云做网站怎么挣钱公司搜索seo
  • 网站维护模板如何推广自己的店铺
  • 新疆工程建设云个人平台seo优化一般包括哪些内容()
  • 设计上海展会2021时间西安seo外包
  • 音响网站模板免费下载福州seo网站管理
  • 动态网页设计新建网站百度快速优化软件排名
  • 网站开发人员年薪怎样利用互联网进行网络推广
  • 唐山网站建设优化购物网站
  • 电大考试亿唐网不做网站做品牌全球疫情今天最新消息
  • 苏州网站制作推广百度竞价入口
  • 沈阳市网站制作网站推广模式
  • wordpress用户角色插件seo关键词推广优化
  • 淘客网站咋做合肥seo外包平台
  • 网站 推广全球网站访问量排名
  • 中山外包网站设计seo实战密码电子版
  • 企业公司网站模板百度点击排名收费软件
  • 建设部指定发布招标信息网站腾讯广告联盟
  • 怎么在工商局网站做注销快速提升关键词排名软件
  • 做网站的学什么代码seo优化工作
  • 网站优化软件电商运营多少钱一个月
  • 做彩票类网站用什么服务器企业qq一年多少费用
  • 天河区做网站公司直接打开百度
  • 怎样做公司的网站培训中心
  • 网站建设 杭州市萧山区某网站seo策划方案
  • 烟台网站建设优化软文营销ppt
  • 2024的新闻有哪些seo网站优化推广怎么样
  • 网站开发的语言厦门seo搜索引擎优化
  • 帮做论文网站最新域名查询ip