当前位置: 首页 > news >正文

工业园做网站的公司传媒公司官网

工业园做网站的公司,传媒公司官网,淘宝详情页psd模板免费,中小企业网站制作费用有如下一个网页,想要抓取其中内容,主要是IP Address和Port,使用python实现。 用F12看一下网页源代码,对应上图表格内容的部分如下: 使用python和lxml来定位爬取。 首先要安装lxml,如下命令(可以…

有如下一个网页,想要抓取其中内容,主要是IP Address和Port,使用python实现。

用F12看一下网页源代码,对应上图表格内容的部分如下:

 

使用python和lxml来定位爬取。

首先要安装lxml,如下命令(可以在pycharm项目的Terminal中运行):

pip3 install lxml

实现代码:

from lxml import etree
import requestsurl = 'https://www.example.com'
r = requests.get(url)
result = r.text
html = etree.HTML(result)rows = html.xpath(".//div[@class='table-responsive fpl-list']/table/tbody/tr[position()>0]")proxy_list = []
for row in rows:td_list1 = row.xpath('./td[1]')td_list2 = row.xpath('./td[2]')ip = td_list1[0].text.replace(' ','').replace('\t','').replace('\n','')port = td_list2[0].text.replace(' ','').replace('\t','').replace('\n','')web_proxy = {'ip': ip, 'port': port, 'types': 0, 'protocol': '0', 'country': '0', 'area': '0', 'speed': 100}proxy_list.append(web_proxy)print(proxy_list

说明:

在HTML中,tr、td、th是用于构建表格的核心标签‌:tr(Table Row)定义表格行,td(Table Data)定义标准数据单元格,th(Table Header)定义表头单元格。‌‌

结合上述代码,rows即是获取的表格中的所有行。

然后针对每一行进行操作。从每一行中,定位并获取需要的单元格的文本内容(此行第一列的单元格就是td[1],第二列就是td[2],使用.text获取其文本内容,注意:使用row.xpath获取出的是一个列表,需要加一个[0]来成为单个元素)。

http://www.dtcms.com/a/505021.html

相关文章:

  • Servlet 发送电子邮件
  • swipe类网站栾城区城乡建设局网站
  • 《小白学随机过程》第二章:随机过程——常见的随机过程(线性高斯过程和卡尔曼滤波)
  • 诚信通国际网站怎么做wordpress做视频网站
  • 做app和做网站相同和区别农村建设网站
  • 曲阜市古建设计院网站网站 网络营销价值
  • 稷山网站建设网站本地建设
  • 专业网站开发哪家公司好oa系统办公平台
  • 容桂网站制作动态网站建设新手看什么书
  • 浏览器网站在线进入做网站论坛 前置许可
  • 城乡建设环保部网站鼎诚网站建设
  • 中国建设信息网站谷歌浏览器搜索引擎入口
  • app网站公司wordpress禁止谷歌
  • 优度网站建设python的网站开发
  • wamp网站根目录配置汇源企业网络营销策划
  • 个人网站备案技巧制作网站的全过程
  • 日志技术、框架
  • css使用 :where() 来简化大型 CSS 选择器列表
  • 海报在线制作免费网站创办网站公司
  • 网站建设服务商怎么收费wordpress主题著作权
  • ResponseEntity - Spring框架的“标准回复模板“
  • 京东网站开发费用济南市住房和城乡建设局网站
  • 赛车网站开发做a的视频在线观看网站
  • 如何替换网站ico图标做网站需要哪些技能
  • mysql基础【事务】
  • 网络前端开发招聘搜索引擎优化报告
  • 龙岗网站建设推广报价广西桂林为什么穷
  • 网站开发学什么数据库龙海市城乡规划建设局网站
  • 烟台网站建设技术支持wordpress多媒体导入
  • 网站做跳转怎么做菏泽 网站建设