当前位置: 首页 > news >正文

网站建设侵权最新军事新闻视频

网站建设侵权,最新军事新闻视频,广州外贸公司排名,网站建设和网页建设的区别上一篇文章中带大家学习了 lxml 模块以及 XPath 语法,本文针对某网新房数据编写爬虫进行实战。 一、网页信息的获取 抓取地址:https://cd.fang.lianjia.com/loupan/ import requestsLink https://cd.fang.lianjia.com/loupan/ Headers {User-Agent: …

上一篇文章中带大家学习了 lxml 模块以及 XPath 语法,本文针对某网新房数据编写爬虫进行实战。

一、网页信息的获取

抓取地址:https://cd.fang.lianjia.com/loupan/

import requestsLink = 'https://cd.fang.lianjia.com/loupan/'
Headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36'
}
response = requests.get(url=Link, headers=Headers)
if response.status_code == 200:html_source = response.textprint(html_source)
else:print(f'状态码:{response.status_code}, 请检查')

二、新房数据的抓取

(1)当前页面所有在售新房获取

root = etree.HTML(html_source)
# 找到所有房屋信息对应的 li 标签,构建 li 列表
li_list = root.xpath('/html/body/div[3]/ul[@class="resblock-list-wrapper"]/li')

(2)部分房屋信息抓取

for li in li_list:# 经过分析,房屋名称信息较好获取,而要获得房屋面积单价则需要借助分支语法house_name = li.xpath('./div/div[1]/h2/a/text()')  # 房屋名称house_unit_price = li.xpath('./div/div[6]/div[1]/span[1]/text()|./div/div[6]/div[1]/span[2]/text()')  # 房屋面积单价print(house_name[0], ''.join(house_unit_price))

三、完整代码

爬虫代码的编写,除了要有扎实的基础知识外,还要善于分析网页内容。
import requests
from lxml import etreeLink = 'https://cd.fang.lianjia.com/loupan/'
Headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/134.0.0.0 Safari/537.36'
}
response = requests.get(url=Link, headers=Headers)
if response.status_code == 200:html_source = response.textroot = etree.HTML(html_source)# 找到所有房屋信息对应的 li 标签,构建 li 列表li_list = root.xpath('/html/body/div[3]/ul[@class="resblock-list-wrapper"]/li')for li in li_list:# 经过分析,房屋名称信息较好获取,而要获得房屋面积单价则需要借助分支语法house_name = li.xpath('./div/div[1]/h2/a/text()')  # 房屋名称house_unit_price = li.xpath('./div/div[6]/div[1]/span[1]/text()|./div/div[6]/div[1]/span[2]/text()')  # 房屋面积单价house_price = li.xpath('./div/div[6]/div[@class="second"]/text()')  # 价格区间house_address = li.xpath('./div/div[2]/span[1]/text()|./div/div[2]/span[2]/text()|./div/div[2]/a/text()')  # 地理位置print(house_name[0], ''.join(house_unit_price), house_price[0], '/'.join(house_address))
else:print(f'状态码:{response.status_code}, 请检查')
http://www.dtcms.com/a/575860.html

相关文章:

  • 网站下雪的效果怎么做的免费国外服务器地址
  • 广州技术网站建设wordpress 会员中心
  • 东莞手机手机端网站建设头条号权重查询
  • 企业网站规划书范文wordpress主题演示
  • 推广做网站联系方式平面设计短期培训班
  • dede wap网站wordpress首个段落摘要
  • 万网网站建设方案书响应式网站 开发
  • 南通做网站优化公司wordpress支持爱奇艺
  • 网站建设的经济效益西方设计网站
  • 建筑网下载门户网站优化怎么做
  • 网站后台统计代码wordpress 医院主题
  • 宜春网站建设哪家专业网站推广套餐
  • 黑龙江省建设厅的网站上海做网站 公司有哪些
  • qq空间怎么做网站鄂州英文网站建设
  • 北京网站建设公司排行今天军事新闻最新消息中国
  • 社区团购小程序模板东莞seo整站优化代理
  • 锦州网站seo个人空间网站免费
  • 写作的网站有哪些设计网官方网站
  • 网站建设 中企动力上海石家庄建设项目公示网
  • 网站建设合作协议模板电商网站设计公司
  • 有了域名后怎么完成网站建设西柳网站建设
  • 做网站人淘宝网站建设需求分析
  • 网站建设方案协议书wordpress 改变js路径
  • 做产品目录设计用什么网站好友情链接教程
  • 买好域名后怎么做网站wordpress 插件 教程视频教程
  • 企业在网站建设中需要做什么酒店官方网站建设书
  • iis 发布asp网站影响网站速度的代码
  • 雄安微网站开发国家能源招标网
  • 天津自贸区建设局网站移动应用开发案例
  • 在网站建设中遇到的问题网站备案审核状态查询