当前位置：首页 > news >正文

记录lxml中的etree、xpath来定位、爬取元素

news 2025/8/28 22:02:08

有如下一个网页，想要抓取其中内容，主要是IP Address和Port，使用python实现。

用F12看一下网页源代码，对应上图表格内容的部分如下：

使用python和lxml来定位爬取。

首先要安装lxml，如下命令（可以在pycharm项目的Terminal中运行）：

pip3 install lxml

实现代码：

from lxml import etree
import requestsurl = 'https://www.example.com'
r = requests.get(url)
result = r.text
html = etree.HTML(result)rows = html.xpath(".//div[@class='table-responsive fpl-list']/table/tbody/tr[position()>0]")proxy_list = []
for row in rows:td_list1 = row.xpath('./td[1]')td_list2 = row.xpath('./td[2]')ip = td_list1[0].text.replace(' ','').replace('\t','').replace('\n','')port = td_list2[0].text.replace(' ','').replace('\t','').replace('\n','')web_proxy = {'ip': ip, 'port': port, 'types': 0, 'protocol': '0', 'country': '0', 'area': '0', 'speed': 100}proxy_list.append(web_proxy)print(proxy_list

说明：

在HTML中，tr、td、th是用于构建表格的核心标签‌：tr（Table Row）定义表格行，td（Table Data）定义标准数据单元格，th（Table Header）定义表头单元格。‌‌

结合上述代码，rows即是获取的表格中的所有行。

然后针对每一行进行操作。从每一行中，定位并获取需要的单元格的文本内容（此行第一列的单元格就是td[1]，第二列就是td[2]，使用.text获取其文本内容，注意：使用row.xpath获取出的是一个列表，需要加一个[0]来成为单个元素）。

查看全文

http://www.dtcms.com/a/249806.html