当前位置: 首页 > wzjs >正文

海南省建设网站的公司成都百度网站排名优化

海南省建设网站的公司,成都百度网站排名优化,火车头采集Wordpress字段,重庆公司网站seo文章目录 前言一、VSCodePython环境搭建二、爬虫案例一1、爬取第一页数据2、爬取所有页数据3、格式化html数据4、导出excel文件 前言 实战是最好的老师,直接案例操作,快速上手。 案例一,爬取数据,最终效果图: 一、VS…

文章目录

  • 前言
  • 一、VSCode+Python环境搭建
  • 二、爬虫案例一
    • 1、爬取第一页数据
    • 2、爬取所有页数据
    • 3、格式化html数据
    • 4、导出excel文件


前言

实战是最好的老师,直接案例操作,快速上手。

案例一,爬取数据,最终效果图:

在这里插入图片描述


一、VSCode+Python环境搭建

开发环境:MacBook Pro + VSCode + Python。

打开最新版VSCode,安装Python开发环境,快捷键:cmd+shift+x。

在这里插入图片描述
选择Python解释器,快捷键:cmd+shift+p。输入:Python: Select Interpreter,选择解释器。
在这里插入图片描述
写“hello world”。
新建文件,输入print(‘hello world~’),另存为hello.py文件。
shift+enter 运行:
在这里插入图片描述

二、爬虫案例一

以爬取“豆瓣读书TOP250”的书籍为案例。

网址链接:https://book.douban.com/top250?start=0

1、爬取第一页数据

代码如下:

import requests
def askUrl(url):head = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Safari/605.1.15"}html=""  r = requests.get(url, headers = head) html = r.text print(html)  return htmlif __name__ == "__main__": askUrl("https://book.douban.com/top250?start=0") 

head->User-Agent的值可以从这个地方获取:

在这里插入图片描述
如果import requests报错,使用pip3 install requests安装。

运行之后,结果如下:

在这里插入图片描述

第一页25个,都以html的形式显示了出来,第25个为书籍《野草》。

2、爬取所有页数据

代码如下:


import requests
def askUrl(url):head = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Safari/605.1.15"}r = requests.get(url, headers = head)html = r.textprint(html)def getData(baseurl):for i in range(0, 10):url = baseurl + str(i * 25)html = askUrl(url)if __name__ == "__main__": baseurl = "https://book.douban.com/top250?start="getData(baseurl)

运行之后,结果如下:

在这里插入图片描述

最后一页,最后一个,为书籍《哈姆莱特》。

3、格式化html数据

上面1和2,只是输出了html源码,现在按自己需要的几个字段进行格式化。

分别取这4个字段:封面图、书籍名称、作者(出版社、价格等)、引用。

在这里插入图片描述

这里使用lxml库,解析html。

# 导入lxml库子模块etree
from lxml import etree 

格式化代码如下:

import requests
from lxml import etree def askUrl(url):head = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Safari/605.1.15"}html=""  r = requests.get(url, headers = head) html = r.text parse = etree.HTML(html)  # 数据# all_tr = parse.xpath('/html[@class="ua-mac ua-webkit book-new-nav"]/body/div[@id="wrapper"]/div[@id="content"]/div[@class="grid-16-8 clearfix"]/div[@class="article"]/div[@class="indent"]/table')all_tr = parse.xpath('//*[@id="content"]/div/div[1]/div/table')for tr in all_tr:tr_data = {'vover': ''.join(tr.xpath('./tr/td[1]/a/img/@src')).strip(), # 封面图'name': ''.join(tr.xpath('./tr/td[2]/div[@class="pl2"]/a/text()')).strip(), # 书名'author': ''.join(tr.xpath('./tr/td[2]/p[1]/text()')).strip(), # 作者'quote': ''.join(tr.xpath('./tr/td[2]/p[2]/span/text()')).strip() # 引用}print(tr_data)if __name__ == "__main__": askUrl("https://book.douban.com/top250?start=0") 

如果报错:

urllib3 v2 only supports OpenSSL 1.1.1+, currently the 'ssl' module is compiled with 'LibreSSL 2.8.3'. 

解决方法:

pip3 install urllib3==1.26.15

结果如下:

在这里插入图片描述

数据,已经非常清晰了。

PS:使用parse.xpath,最重要的是获取到准确的xpath值。

两个方法:

方法一:Google Chrome浏览器插件:xpath helper。

效果如下:

弹出插件面板:cmd+shift+x。

选中:shift。

在这里插入图片描述
取到的值为:

# 原始值
/html[@class='ua-mac ua-webkit book-new-nav']/body/div[@id='wrapper']/div[@id='content']/div[@class='grid-16-8 clearfix']/div[@class='article']/div[@class='indent']/table[1]/tbody/tr[@class='item']# 优化后的值(使用此值,去掉了tbody和[1])
/html[@class='ua-mac ua-webkit book-new-nav']/body/div[@id='wrapper']/div[@id='content']/div[@class='grid-16-8 clearfix']/div[@class='article']/div[@class='indent']/table

方法二:Google Chrome浏览器,查看源代码。

在这里插入图片描述

取到的值为:

# 原始值
//*[@id="content"]/div/div[1]/div/table[1]/tbody/tr# 优化后的值(使用此值,去掉了tbody和[1])
//*[@id="content"]/div/div[1]/div/table

每一个字段对应的xpath值,也是这么获取。

4、导出excel文件

生成csv格式文件。

导入csv库:

import csv

导出cvs文件(第一页25条),代码如下:

import requests
from lxml import etree 
import csvdef askUrl(url):head = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Safari/605.1.15"}html=""  r = requests.get(url, headers = head) html = r.text parse = etree.HTML(html)  # 数据all_tr = parse.xpath('//*[@id="content"]/div/div[1]/div/table')# 创建book.csv文件with open('book.csv', 'a', encoding='utf_8_sig', newline='') as fp:  header = ['封面','名称', '作者', '引用']  writer = csv.writer(fp)  writer.writerow(header)for tr in all_tr:tr_data = {'vover': ''.join(tr.xpath('./tr/td[1]/a/img/@src')).strip(), # 封面图'name': ''.join(tr.xpath('./tr/td[2]/div[@class="pl2"]/a/text()')).strip(), # 书名'author': ''.join(tr.xpath('./tr/td[2]/p[1]/text()')).strip(), # 作者'quote': ''.join(tr.xpath('./tr/td[2]/p[2]/span/text()')).strip() # 引用}# print(tr_data)# 写入数据行with open('book.csv', 'a', encoding='utf_8_sig', newline='') as fp:  fieldnames = ['vover','name', 'author', 'quote']  writer = csv.DictWriter(fp, fieldnames)  writer.writerow(tr_data)if __name__ == "__main__": askUrl("https://book.douban.com/top250?start=0") 

导出的book.csv文件(第一页),如下:

在这里插入图片描述

导出cvs文件(所有的250条),代码如下:

import requests
from lxml import etree 
import csvdef askUrl(url):head = { "User-Agent": "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/605.1.15 (KHTML, like Gecko) Version/17.1 Safari/605.1.15"}r = requests.get(url, headers = head)html = r.text# print(html)parse = etree.HTML(html)all_tr = parse.xpath('//*[@id="content"]/div/div[1]/div/table')for tr in all_tr:tr_data = {'vover': ''.join(tr.xpath('./tr/td[1]/a/img/@src')).strip(), # 封面图'name': ''.join(tr.xpath('./tr/td[2]/div[@class="pl2"]/a/text()')).strip(), # 书名'author': ''.join(tr.xpath('./tr/td[2]/p[1]/text()')).strip(), # 作者'quote': ''.join(tr.xpath('./tr/td[2]/p[2]/span/text()')).strip() # 引用}# print(tr_data)# 写入数据行with open('bookall.csv', 'a', encoding='utf_8_sig', newline='') as fp:  fieldnames = ['vover','name', 'author', 'quote']  writer = csv.DictWriter(fp, fieldnames)  writer.writerow(tr_data)def getData(baseurl):# 创建book.csv文件with open('bookall.csv', 'a', encoding='utf_8_sig', newline='') as fp:  header = ['封面','名称', '作者', '引用']  writer = csv.writer(fp)  writer.writerow(header)# 插入25页的数据for i in range(0, 10):url = baseurl + str(i * 25)html = askUrl(url)if __name__ == "__main__": baseurl = "https://book.douban.com/top250?start="getData(baseurl)

导出的book.csv文件(所有页250条数据),如下:

在这里插入图片描述


http://www.dtcms.com/wzjs/434349.html

相关文章:

  • 项目计划书范文案例360优化大师历史版本
  • 个人网站能百度推广吗浙江网站seo
  • 网站中的实名身份证验证怎么做网站创建公司
  • 个人注册网站一般做什么网站seo如何优化
  • 建立什么本地网站赚钱头条收录提交入口
  • 团购做的比较好的网站中国没有限制的搜索引擎
  • 小程序app开发百度如何优化排名靠前
  • 网站做全景seo点击软件哪个好用
  • 哪些网站做科技专题网络客服
  • 内容营销的表现形式比较单一石家庄网络seo推广
  • 企业网站建设教学seoer是什么意思
  • 风格网站建设百度seo搜索引擎优化厂家
  • 巴中住房建设部网站刷关键词要刷大词吗
  • 网站加产品分类谷歌广告上海有限公司官网
  • 山东 网站建设网站建设制作专业
  • 企业自建网站平台有哪些搜索引擎快速排名推广
  • 建电子商城网站军事新闻今日最新消息
  • 怎样用手机做推广免费网站网站推广工作
  • 做理财的网站有哪些南宁百度seo价格
  • 山西网站建设电话如何用模板做网站
  • 深圳网站seo设计宣传营销方式有哪些
  • 企业网站 建设策划书如何快速推广网上国网
  • 网站怎么做微信扫描登录网站禁止搜索引擎收录的方法
  • 如何网站建设策划方案网站seo查询
  • 微信公众号免费制作成微网站如何做免费网络推广
  • 徐州做网站的公司有哪些武汉seo优化分析
  • 现在建网站可以赚钱吗成免费crm特色
  • 做网站时 404网页如何指向全球搜索引擎网站
  • 做网站推广托管注意营销策略的重要性
  • 房产网签合同平台上海百度整站优化服务