当前位置: 首页 > wzjs >正文

工程承包网站有哪些潍坊百度关键词优化

工程承包网站有哪些,潍坊百度关键词优化,凤冈县住房和城乡建设局网站,b2c网站建设平台文章目录 一、环境说明二、基本思路三、代码 一、环境说明 python 版本:3.10 MySQL版本:8 二、基本思路 首先,我们需要查看网页源代码 通过html源码,确定我们要抓取的内容所在标签的特点 然后,利用BeautifulSoup进…

文章目录

  • 一、环境说明
  • 二、基本思路
  • 三、代码

一、环境说明

python 版本:3.10
MySQL版本:8

二、基本思路

首先,我们需要查看网页源代码
通过html源码,确定我们要抓取的内容所在标签的特点

然后,利用BeautifulSoup进行html代码解析
在逐一获取我们需要的标签即可。

最后,将图片下载到本地,基本信息保存到MySQL

三、代码

import os  # 同来创造文件夹
import requests  # 发送请求和得到响应用的
from bs4 import BeautifulSoup  # 用来解析回应的数据
import MySQLdbdef GetHtmlText(url):  # 得到响应数据try:r = requests.get(url)  # 发送urlr.raise_for_status()  # 判断是否成功r.encoding = 'utf-8'  # 设置编码格式return r.text  # 返回他的响应数据except:return ''def main(pages):filepath = os.getcwd() + '\myImgs\\'  # 创造一个文件夹if not os.path.exists(filepath):  # 如果没有则创造os.makedirs(filepath)#创建数据库连接db = MySQLdb.connect('127.0.0.1', 'root', 'root', port=3306, db='test')cur = db.cursor()pagenum = pages  # 要爬取的页数fnum = 1img_url = ""context = ""local_path = ""for page in range(pages):url = "https://www.百度.com/news/?page=" + str(page+1)  # 第几页print(url)html = GetHtmlText(url) # 获取网页html源码# r = requests.get(url)soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')  # html.parser是解析器contexts = soup.find_all(name='div', attrs={'class': ['card card--standard js-card']})  # 根据class值,获取对应的div# print(contexts[0].text)  # 获取图片地址for item in contexts:# detail_url = item.get('href')print(item.text)context = item.text     #读取标签内容images = item.find_all(name='img', attrs={'width': ['368']})for img in images:imgurl = img.get('src')     #获取图片url地址print(imgurl)img_url = imgurlimgcontent = requests.get(imgurl).content  # 得到这个url下的内容content,应该是二进制的filename = str(fnum) + '.jpg'local_path = filepath + filenamewith open(filepath + filename, 'wb') as wf:  # 二进制形式写入数据wf.write(imgcontent)sql = "INSERT INTO `test`.`py_news` (`img_url`, `context`, `local_path`) VALUES ( '" + img_url + "', '" + context + "', '" + local_path + "');"cur.execute(sql)  # 引号中为SQL语句fnum += 1# 关闭数据库连接cur.close()db.close()if __name__ == '__main__':main(1)
http://www.dtcms.com/wzjs/55045.html

相关文章:

  • 网站空间到期了怎么办西安关键词seo
  • 网站服务器服务商深圳市网络品牌推广
  • 引擎网站推广法怎么做wifi优化大师下载
  • 做网站签订合同湖南百度推广开户
  • 做网站配置好了找不到服务器近期国内热点新闻事件
  • 怎么选择无锡网站建设广东疫情最新数据
  • 腾讯云网站建设教程百度站长工具链接提交
  • 党委网站建设建议百度竞价推广开户
  • 怎么用记事本做钓鱼网站天津seo招聘
  • 长沙网站seo优化排名广州新闻头条最新消息
  • 下载app 的网站 如何做百度关键词价格怎么查询
  • 建设网站所采用的技术seo关键词排名优化费用
  • 速拓科技是做网站2023免费网站推广大全
  • 海口网站建设方案报价神马移动排名优化
  • 张家港网站seophp视频转码
  • 昆山住房和城乡建设局网站搜索引擎优化的概念
  • 上海网站建设哪家比较好如何进行搜索引擎优化
  • 企业展示网站建设需要做什么公司免费推广网站
  • 网站制作长春免费制作网站
  • php 网站管理系统深圳网络推广优化
  • 网站开发规划免费的网站软件
  • 做美图 网站有哪些小米市场营销案例分析
  • 长沙制作网站日照seo公司
  • 站群子网站开发微信公众号怎么开通
  • 纪检监察信息网站建设seo排名快速优化
  • 营销网站占用多少m空间新闻报道最新消息今天
  • dedecms网站后台模板修改关键词指数
  • 网站建设技术分析业务网站制作
  • 北京住房和城乡建设局门户网站橘子seo
  • 权威的顺德网站建设自动外链工具