当前位置: 首页 > wzjs >正文

wordpress默认登陆地址河北seo推广方案

wordpress默认登陆地址,河北seo推广方案,wordpress免费主题 开源,微信h5的制作方法免责声明 本教程仅用于教育目的,演示如何合法获取公开专利数据。在实际操作前,请务必: 1. 仔细阅读目标网站的robots.txt文件和服务条款 2. 控制请求频率,避免对服务器造成负担 3. 仅获取和使用公开数据 4. 不用于商业用途或…

免责声明

本教程仅用于教育目的,演示如何合法获取公开专利数据。在实际操作前,请务必:

1.  仔细阅读目标网站的robots.txt文件和服务条款
2.  控制请求频率,避免对服务器造成负担
3.  仅获取和使用公开数据
4.  不用于商业用途或大规模抓取

本次教学网站:aHR0cDovL2VwdWIuY25pcGEuZ292LmNuL0FkdmFuY2Vk(请自行base64解密)。

本次实现需求:1.查询某固定日期之后的所有专利 2.将获取到的专利数据写入xlsx文件

本次使用语言:python

实现思路:DrissionPage实现自动化操作网页,向公布开始日期的输入框插入需要查询的日期(若需要其他查询条件思路与其基本一致),点击查询按钮跳转至专利数据列表页面,获取总计页面数量,循环总计页面数量,自动获取并向xlsx文件写入每一页数据,如果当前页不是最后一页,点击下一页继续获取数据并完成写入。

程序输出结果:

完整代码

from DrissionPage import ChromiumOptions, ChromiumPage
import re
from bs4 import BeautifulSoup
from DataRecorder import Recorderco = ChromiumOptions()
co.headless()  # 无头模式
# 创建页面对象,并启动浏览器
page = ChromiumPage(co)
# 跳转到页面
page.get('http://epub.cnipa.gov.cn/Advanced')
start_date = '2022.10.18'
r = Recorder(f'专利网_{start_date}.xlsx')
r.set.head(['标题', '申请公布号', '申请公布日', '申请号', '申请日', '申请人', '发明人', '地址', '分类号', '摘要'])
r.record()def save_data(datalist):r.add_data(datalist)r.record()# 定位到开始日期文本框,获取文本框元素
ele = page.ele('#pd_begin')
# 输入对文本框输入开始日期
ele.input(start_date)
# 定位到页面文本为“查询”的按钮并点击
search_button = page.ele('.icon-sea')
search_button.click()
page.wait(5)total_element = page.ele('css:.page_total')
total_content = total_element.text
# 正则提取页数
page_num = re.search(r'共 (\d+) 页', total_content).group(1)
print(f'总页数:{page_num}')  # 输出:总页数:****now_page = 1
max_page = int(page_num)
data_list = []def get_data():res = page.ele('#result')items = res.eles('css:.item')list_arr = []for item in items:title = item.ele('.title').textpublication_num = item.ele('.info').eles('tag:dd')[0].textpublication_date = item.ele('.info').eles('tag:dd')[1].textapplication_num = item.ele('.info').eles('tag:dd')[2].textapplication_date = item.ele('.info').eles('tag:dd')[3].textapplicant = item.ele('.info').eles('tag:dd')[4].textinventor = item.ele('.info').eles('tag:dd')[5].textaddress = item.eles('.intro')[0].eles('tag:dd')[0].texttype_num = item.eles('.intro')[1].eles('tag:dd')[0].textdes = item.eles('.intro')[2].eles('tag:dd')[0].textif item.eles('.intro')[2].eles('tag:dd')[0].ele('tag:p'):des_dom = item.eles('.intro')[2].eles('tag:dd')[0].ele('tag:p').htmlsoup = BeautifulSoup(des_dom, 'html.parser')for tag in soup.find_all(class_=['point', 'open j-open-alltxt']):tag.decompose()des = soup.get_text(strip=True).replace('\n', ' ')arr = [title, publication_num, publication_date, application_num, application_date, applicant, inventor,address, type_num, des]print(arr)list_arr.append(arr)save_data(list_arr)def get_page_data():if now_page == 1:get_data()else:next_button = page.ele('.next_page')page.wait(2)next_button.click()page.wait(3)get_data()for i in range(1, max_page + 1):now_page = iprint(f'正在获取第{i}页数据')get_page_data()page.quit()

http://www.dtcms.com/wzjs/2520.html

相关文章:

  • 网站开发工程师招聘要求灰色行业推广平台网站
  • 网站备案账号是什么样的平台推广策划方案
  • 做网站后台服务器什么最好没有限制的国外搜索引擎
  • 桂林论坛网站有哪些蜗牛精灵seo
  • 写网站教程培训机构需要哪些证件
  • 优质高等职业院校建设申报网站品牌营销推广方案
  • 西樵做网站微指数查询
  • 台州智能模板建站百度搜索广告收费标准
  • 临朐县网站建设创建网站需要多少资金
  • 杭州网站建设公司排名宁波seo推广咨询
  • 局机关网站建设网页制作软件免费版
  • 南宁网站建设加q479185700宝鸡seo优化
  • icp备案需要先建设网站么搜索风云榜
  • bootstrap网站开发实例简单的seo
  • 电商网站的在线客服怎么做西安seo整站优化
  • 做网络教育录播网站做公司网站
  • 旅游网站开发方案百度文库上海百度推广排名优化
  • 做网站怎么调用数据库百度seo优化及推广
  • 可以自己买个服务器做网站吗网站内链优化
  • 阳谷网站开发百度主页面
  • 掉关键词网站东莞网站建设市场
  • 怎样做信息收费网站企业推广是做什么的
  • 菲律宾bc网站总代理怎么做重庆网站推广
  • 济南做网站最好的公司手游推广渠道
  • 用angular做的网站百度推广哪家做的最好
  • 淮北市做网站最好的公司制作网页教程
  • 陕西交通建设有限公司网站宜昌网站建设公司
  • 天水有做网站的地方吗网络营销公司名字大全
  • 北京好的网站建设公司泉州seo技术
  • 网站建设 加强宣传发外链的网址