当前位置: 首页 > wzjs >正文

付费推广途径与原因seo双标题软件

付费推广途径与原因,seo双标题软件,外贸服装商城网站建设,wd怎样建设一个网站阅读提示:我今天才开始尝试爬虫,写的不好请见谅。 一、准备工具 requests库:发送HTTP请求并获取网页内容。BeautifulSoup库:解析HTML页面并提取数据。pandas库:保存抓取到的数据到CSV文件中。 二、爬取步骤 发送请求…

阅读提示:我今天才开始尝试爬虫,写的不好请见谅。

一、准备工具

  • requests库:发送HTTP请求并获取网页内容。
  • BeautifulSoup库:解析HTML页面并提取数据。
  • pandas库:保存抓取到的数据到CSV文件中。

二、爬取步骤

  • 发送请求: 对于目标网页,使用requests.get()发送HTTP请求并获取网页的HTML内容。
  • 解析HTML: 使用BeautifulSoup解析网页,并寻找包含信息的HTML元素。
  • 提取数据: 找到合适的HTML标签和类名,提取信息。
  • 分页爬取: 如果网站有分页,可以在代码中处理分页逻辑,循环抓取每一页的数据。
  • 保存数据: 使用pandas或内置的文件写入功能,将抓取到的数据保存到CSV文件中。

三、爬虫代码

网页

<div class="pic"><em>1</em><a href="https://movie.douban.com/subject/1292052/"><img width="100" alt="肖申克的救赎" src="https://img3.doubanio.com/view/photo/s_ratio_poster/public/p480747492.webp"></a></div>
<div class="bd">                        
<p>                            
导演: 弗兰克·德拉邦特 Frank Darabont&nbsp;&nbsp;&nbsp;主演: 蒂姆·罗宾斯 Tim Robbins /...<br>                            
1994&nbsp;/&nbsp;美国&nbsp;/&nbsp;犯罪 剧情                        
</p><div>                            
<span class="rating5-t"></span>                            
<span class="rating_num" property="v:average">9.7</span>                            
<span property="v:best" content="10.0"></span>                            
<span>3148544人评价</span>                        
</div><p class="quote">                                
<span>希望让人自由。</span>                            
</p>                    
</div>

 爬虫代码:(我这里只爬虫了一部分)


from bs4 import BeautifulSoup
import requests
import pandas as pddef getFilm():try:# 添加请求头headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'}# 获取网页内容res = requests.get("https://movie.douban.com/top250?start=0&filter=",  headers=headers, timeout=10)res.encoding = 'utf-8'  # 修正编码设置# 解析网页soup = BeautifulSoup(res.text, 'html.parser')# 获取数据film_data=soup.find('div',class_='hd')if not film_data:print("未找到信息")print(res.status_code)  # 应该是200return Nonename=soup.find('span',class_='title').text.strip()score=soup.find('span',class_='rating_num').text.strip()word=soup.find('p',class_='quote')dictum=word.find('span').get_text()df=pd.DataFrame({'电影名':[name],'评分':[score],'寄语':dictum})return dfexcept Exception as e:print(f"发生错误: {e}")return Nonedef main():df= getFilm()  # 修正变量名if df is not None:print(df)  # 打印DataFrameelse:print("未能获取数据")if __name__ == '__main__':main()

四、拓展(设置请求头)

请求头(HTTP Headers)是客户端(如浏览器或爬虫)在发送 HTTP 请求时,附带的一组 键值对(Key-Value)信息,用于告诉服务器 你是谁、你想获取什么、以及如何返回数据

请求头字段示例值作用
User-AgentMozilla/5.0 (Windows NT 10.0; Win64; x64)告诉服务器你的浏览器或设备类型
Accepttext/html,application/xhtml+xml告诉服务器你希望接收的数据类型
Accept-Languagezh-CN,zh;q=0.9告诉服务器你希望返回的语言
Refererhttps://www.google.com/告诉服务器你从哪个页面跳转过来
Hostmovie.douban.com告诉服务器你要访问的域名
Cookiesessionid=abc123用于身份验证(如登录状态)
Connectionkeep-alive控制 TCP 连接是否保持
Accept-Encodinggzip, deflate告诉服务器你支持的压缩方式


 

http://www.dtcms.com/wzjs/280984.html

相关文章:

  • 360网站建设价位北京seo关键词
  • 广州最新传染疫情seo网站优化详解
  • wordpress 主题 模板海淀区seo引擎优化多少钱
  • 用织梦做的网站怎么上传虚拟seo关键词怎么选择
  • wordpress注册邮件无法seo博客写作
  • 营销组合策略推广seo是什么意思
  • 品牌注册查询官网优化师是干嘛的
  • jsp网站开发源码网站推广的具体方案
  • 网站群建设意义百度免费咨询
  • 上海电子通科技网站建设windows优化大师官方免费下载
  • 广州学习网站建设推广普通话的文字内容
  • 潍坊做网站的网络公司seo推广沧州公司电话
  • 新手学做网站电子版网站seo排名免费咨询
  • 做一个简单网站互联网营销师是干什么的
  • 可以做免费的网站吗114啦网址导航官网
  • 网站停留时间 从哪里获取网络营销的基本流程
  • 服务之家网站推广公司技能培训
  • 看b站24个小时直播间网络技术培训
  • 比较好的网页网站设计精准营销通俗来说是什么
  • 基于asp的网络课程网站开发b站视频未能成功转码
  • 扬州网站建设多少钱软件外包公司
  • 邯郸做移动网站费用济南做网站公司
  • 福千欣隆网站建设公司怎么样站长工具百科
  • 住房和城乡建设部官方网站网站建设与管理就业前景
  • 简约网站模版线下推广的渠道和方法
  • 建设网站公司哪家性价比高百度seo有用吗
  • 哪个网站做美食好一点今日最近的新闻大事10条
  • 做网站框架浏览时怎么变长松松软文
  • 免费代码网站可复制腾讯广告代理商加盟
  • 10m网站空间游戏推广合作