当前位置: 首页 > news >正文

网站建设属于淘宝哪种类目沪浙网站

网站建设属于淘宝哪种类目,沪浙网站,好看手机网站推荐,百度网站下载安装文章目录 一、环境说明二、基本思路三、代码 一、环境说明 python 版本:3.10 MySQL版本:8 二、基本思路 首先,我们需要查看网页源代码 通过html源码,确定我们要抓取的内容所在标签的特点 然后,利用BeautifulSoup进…

文章目录

  • 一、环境说明
  • 二、基本思路
  • 三、代码

一、环境说明

python 版本:3.10
MySQL版本:8

二、基本思路

首先,我们需要查看网页源代码
通过html源码,确定我们要抓取的内容所在标签的特点

然后,利用BeautifulSoup进行html代码解析
在逐一获取我们需要的标签即可。

最后,将图片下载到本地,基本信息保存到MySQL

三、代码

import os  # 同来创造文件夹
import requests  # 发送请求和得到响应用的
from bs4 import BeautifulSoup  # 用来解析回应的数据
import MySQLdbdef GetHtmlText(url):  # 得到响应数据try:r = requests.get(url)  # 发送urlr.raise_for_status()  # 判断是否成功r.encoding = 'utf-8'  # 设置编码格式return r.text  # 返回他的响应数据except:return ''def main(pages):filepath = os.getcwd() + '\myImgs\\'  # 创造一个文件夹if not os.path.exists(filepath):  # 如果没有则创造os.makedirs(filepath)#创建数据库连接db = MySQLdb.connect('127.0.0.1', 'root', 'root', port=3306, db='test')cur = db.cursor()pagenum = pages  # 要爬取的页数fnum = 1img_url = ""context = ""local_path = ""for page in range(pages):url = "https://www.百度.com/news/?page=" + str(page+1)  # 第几页print(url)html = GetHtmlText(url) # 获取网页html源码# r = requests.get(url)soup = BeautifulSoup(html, 'html.parser', from_encoding='utf-8')  # html.parser是解析器contexts = soup.find_all(name='div', attrs={'class': ['card card--standard js-card']})  # 根据class值,获取对应的div# print(contexts[0].text)  # 获取图片地址for item in contexts:# detail_url = item.get('href')print(item.text)context = item.text     #读取标签内容images = item.find_all(name='img', attrs={'width': ['368']})for img in images:imgurl = img.get('src')     #获取图片url地址print(imgurl)img_url = imgurlimgcontent = requests.get(imgurl).content  # 得到这个url下的内容content,应该是二进制的filename = str(fnum) + '.jpg'local_path = filepath + filenamewith open(filepath + filename, 'wb') as wf:  # 二进制形式写入数据wf.write(imgcontent)sql = "INSERT INTO `test`.`py_news` (`img_url`, `context`, `local_path`) VALUES ( '" + img_url + "', '" + context + "', '" + local_path + "');"cur.execute(sql)  # 引号中为SQL语句fnum += 1# 关闭数据库连接cur.close()db.close()if __name__ == '__main__':main(1)
http://www.dtcms.com/a/508764.html

相关文章:

  • vue 之 import 的语法
  • 网站建设采购项目部门网站建设整改
  • 做网站设计电脑买什么高端本好青岛网站建设eoeeoe
  • 网站页面制作西安广告公司联系方式
  • VS2022+DirectX9坐标系与基本图元之基本图元(BasePrimitive)_0302
  • 网站建设实训总结及体会网站开发与电子商务
  • 为什么MainWindow.xaml绑定的datacontext,EtherCATSuiteCtrl.xaml直接用了?
  • 建设企业网站综合考虑网页打不开用什么浏览器
  • 网站建设需要掌握什么知识网络营销工具的使用
  • 贪心算法深度解析:从理论到实战的完整指南
  • 基于Langchain的实践(电商客服)
  • 百度首页排名优化公司沈阳网站搜索引擎优化
  • 旅游网站建设初衷新网站应该怎么做
  • 网站做短信验证需要多少钱衡水学校网站建设
  • (立控信息LKONE)智能仓储管理,高效・安全・精准,一 “智” 到位
  • 内存管理C++
  • 建网站算法企业网站设计规范
  • 建设部网站官网 施工许可wordpress可以装多少会员数据库
  • DeepCFD+:一种工业级 CFD 代理模型训练框架【深度学习+流体力学】
  • 设计师服务平台鱼巴士医疗网站优化公司
  • 网站页面设计需要遵循的六大原则wordpress 图片链接
  • 网站网页设计培训机构浙江住房和城乡建设厅网站
  • ElectrumX介绍
  • miniAPP图片上传等api触发项目onhide等周期函数问题
  • 广州专业网站网络营销学院
  • 网站友链怎么做大鹏新网站建设
  • AI智能体:企业级智能体管理解决方案
  • 温州网站开发培训滨海网站建设公司
  • 网站建设吉金手指排名12恶意点击别人的网站
  • git note