当前位置: 首页 > wzjs >正文

东营北京网站建设厦门seo顾问屈兴东

东营北京网站建设,厦门seo顾问屈兴东,wordpress多站点数量,自助建站帮助网在爬取网页信息时,需要注意网页爬虫规范文件robots.txt eg:csdn的爬虫规范文件 csdn.net/robots.txt User-agent: 下面的Disallow规则适用于所有爬虫(即所有用户代理)。星号*是一个通配符,表示“所有”。 Disallow&…

        在爬取网页信息时,需要注意网页爬虫规范文件robots.txt

        eg:csdn的爬虫规范文件 csdn.net/robots.txt

User-agent: 
        下面的Disallow规则适用于所有爬虫(即所有用户代理)。星号*是一个通配符,表示“所有”。

Disallow:

        禁止爬虫访问的路径

1、首先下载python的相关类库

pip install requests
pip install beautifulsoup4

        requests 是一个http库,可以发送网络请求 。

        beautifulsoup4 主要用来解析html文档。

2、引入相关库 

import requests    
from bs4 import BeautifulSoup  

3、编写相关代码

url = 'https://www.....com'    
response = requests.get(url)    html_content = response.text  
soup = BeautifulSoup(html_content, 'html.parser')  titles = soup.select('h2') 
for title in titles:  print(title.text)

        url : 需要爬的页面路径

        response = requests.get(url)  发送get请求并接受

        html_content = response.text 取出页面主体

        soup = BeautifulSoup(html_content, 'html.parser')  由beautifulsoup对主体中的h5标签解析

        titles = soup.select('h2')   选择所有的h2标签

        最后循环遍历打印出所有h2 标签

4、测试

http://www.dtcms.com/wzjs/301604.html

相关文章:

  • 国内最好的旅游网站产品推广找哪家公司
  • 网站接入商是什么意思推广文章的步骤
  • 如何设计营销 网站建设天琥设计培训学校官网
  • 顺德营销型网站一站式服务哪家好电子商务是干什么的
  • 怎么做网站 高中信息技术每日重大军事新闻
  • 网站开发流程步骤 口袋一键生成网页
  • dedecms导航网站广东网站关键词排名
  • 成都网站制作售后湖南专业的关键词优化
  • .net 大型网站开发技术北京seo包年
  • 国际金融资讯做的好的网站成都关键词seo推广电话
  • 溧阳常州做网站关键词歌词打印
  • 做视频的网站有哪些app营销策略都有哪些
  • 深圳网页定做深圳网站优化公司哪家好
  • 自己电脑做主机怎么做网站域名估价
  • 我做网站了 圆通互联网公司排名100强
  • 做网站还是租用服务器百度账号客服
  • 哈尔滨市建设工程交易中心网站网络销售公司经营范围
  • 山西响应式网站建设推荐外贸网站免费推广b2b
  • 洛阳网站建设内容优化方案
  • 做图模板网站有哪些内容百度指数峰值查询
  • 二级医院做网站如何用手机免费创建网站
  • 网站建设要程序员吗大数据分析师
  • 临朐门户网上海百度seo公司
  • .net网站开发工具介绍seo具体优化流程
  • 网站建设算什么服务类型seo怎么做优化
  • 做视频好用的素材网站百分百营销软件官网
  • 动态网站的优点本周时事新闻概要10条
  • 武汉门户网站建设好搜搜索引擎
  • 邢台做网站服务营销策划公司经营范围
  • 不花钱的网页游戏排行厦门seo顾问