当前位置: 首页 > wzjs >正文

网站实时推送怎么做推广方式有哪几种

网站实时推送怎么做,推广方式有哪几种,内蒙古建设委员会网站,wordpress不显示模板阅读提示:我今天才开始尝试爬虫,写的不好请见谅。 一、准备工具 requests库:发送HTTP请求并获取网页内容。BeautifulSoup库:解析HTML页面并提取数据。pandas库:保存抓取到的数据到CSV文件中。 二、爬取步骤 发送请求…

阅读提示:我今天才开始尝试爬虫,写的不好请见谅。

一、准备工具

  • requests库:发送HTTP请求并获取网页内容。
  • BeautifulSoup库:解析HTML页面并提取数据。
  • pandas库:保存抓取到的数据到CSV文件中。

二、爬取步骤

  • 发送请求: 对于目标网页,使用requests.get()发送HTTP请求并获取网页的HTML内容。
  • 解析HTML: 使用BeautifulSoup解析网页,并寻找包含信息的HTML元素。
  • 提取数据: 找到合适的HTML标签和类名,提取信息。
  • 分页爬取: 如果网站有分页,可以在代码中处理分页逻辑,循环抓取每一页的数据。
  • 保存数据: 使用pandas或内置的文件写入功能,将抓取到的数据保存到CSV文件中。

三、爬虫代码

网页

<div class="pic"><em>1</em><a href="https://movie.douban.com/subject/1292052/"><img width="100" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp"></a></div>
<div class="bd">                        
<p>                            
导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>                            
1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情                        
</p><div>                            
<span class="rating5-t"></span>                            
<span class="rating_num" property="v:average">9.7</span>                            
<span property="v:best" content="10.0"></span>                            
<span>3148544人评价</span>                        
</div><p class="quote">                                
<span>希望让人自由。</span>                            
</p>                    
</div>

 爬虫代码:(我这里只爬虫了一部分)


from bs4 import BeautifulSoup
import requests
import pandas as pddef getFilm():try:# 添加请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}# 获取网页内容res = requests.get("https://movie.douban.com/top250?start=0&filter=",  headers=headers, timeout=10)res.encoding = 'utf-8'  # 修正编码设置# 解析网页soup = BeautifulSoup(res.text, 'html.parser')# 获取数据film_data=soup.find('div',class_='hd')if not film_data:print("未找到信息")print(res.status_code)  # 应该是200return Nonename=soup.find('span',class_='title').text.strip()score=soup.find('span',class_='rating_num').text.strip()word=soup.find('p',class_='quote')dictum=word.find('span').get_text()df=pd.DataFrame({'电影名':[name],'评分':[score],'寄语':dictum})return dfexcept Exception as e:print(f"发生错误: {e}")return Nonedef main():df= getFilm()  # 修正变量名if df is not None:print(df)  # 打印DataFrameelse:print("未能获取数据")if __name__ == '__main__':main()

四、拓展(设置请求头)

请求头(HTTP Headers)是客户端(如浏览器或爬虫)在发送 HTTP 请求时,附带的一组 键值对(Key-Value)信息,用于告诉服务器 你是谁、你想获取什么、以及如何返回数据

请求头字段示例值作用
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64)告诉服务器你的浏览器或设备类型
Accepttext/html,application/xhtml+xml告诉服务器你希望接收的数据类型
Accept-Languagezh-CN,zh;q=0.9告诉服务器你希望返回的语言
Refererhttps://www.google.com/告诉服务器你从哪个页面跳转过来
Hostmovie.douban.com告诉服务器你要访问的域名
Cookiesessionid=abc123用于身份验证(如登录状态)
Connectionkeep-alive控制 TCP 连接是否保持
Accept-Encodinggzip, deflate告诉服务器你支持的压缩方式


 

http://www.dtcms.com/wzjs/343660.html

相关文章:

  • 三亚疫情最新情况seo搜索规则
  • 美食地图网站开发品牌策划推广方案
  • 厦门旅游网站建设北京seo推广系统
  • 江西做网站公司台州seo服务
  • 龙岩抖音小程序开发公司郑州seo哪家专业
  • 郑州专业网站推广公司百度官网登录入口
  • 电子商城网站建设的实训内容记述百度电脑版网页
  • 品牌推广计划长沙网站包年优化
  • 网站开发的目的个人建网站步骤
  • 网站建设技术经理岗位职责seo外包方案
  • 做网站用什么软件设计好宝鸡seo优化公司
  • 成都集团网站建设第三方关键词优化排名
  • 网站建设项目模板新网站多久会被百度收录
  • 营销型网站定制小红书代运营
  • vs2010怎么做网站app开发平台开发
  • 学做网站看什么书如何推广新产品的方法
  • 2022年ppt模板下载aso排名优化
  • 学校做网站的软件网站页面分析作业
  • 政府网站群建设方案百度文库成都专业的整站优化
  • 好的公文写作网站好看的网站设计
  • 国外可以做推广的网站有哪些做销售怎样去寻找客户
  • 通辽做网站新手怎么入行seo
  • 泉州市知名网站建设公司微信推广软件有哪些
  • 邯郸网络名称官网seo是什么
  • 溧水建设局网站焊工培训心得体会
  • 网站开发中如何实现gps定位电商网站对比表格
  • 网站建设得多少钱baidu百度网盘
  • wordpress 开发教程seo专员岗位职责
  • 佛山购物网站建设武汉百度推广代运营
  • 科技馆网站建设方案seo外链技巧