当前位置: 首页 > wzjs >正文

网络销售平台推广seo 能提高网站速度吗

网络销售平台推广,seo 能提高网站速度吗,成都设计公司展厅设计,网站做百度推广能获取流量吗前言 基础薄弱,或许是ai用多的缘故,记录了写爬虫需要的一些基础知识,需要自取 这里记录一些我初学爬虫的时候经常忘记的东西,包括但不限于一些文件的读写和一些其他的东西 文件读写 文件读写,如果想表达——若文件…

前言

基础薄弱,或许是ai用多的缘故,记录了写爬虫需要的一些基础知识,需要自取

这里记录一些我初学爬虫的时候经常忘记的东西,包括但不限于一些文件的读写和一些其他的东西

文件读写

文件读写,如果想表达——若文件存在,就直接使用,若不存在就创建,可以这样写,避免会报一些很sb的文件不存在的错误

文件创建

if not os.path.exists("D:/这里写你的路径"):os.mkdir("D:/这里写你的路径")

文件读写

urlretrieve(j.get('src'),"C:/Users//Desktop/漫画/"+str(i)+"/"+str(shix)+".jpg")

这里第一个参数写目标文件下载链接,第二个就是你的path路径,比如要下载一个图片,那么就是图片路径+保存的文件夹路径+文件名,str(shix).jpg就是要保存的文件名

那么如果想爬取小说怎么办?就是上面是下载某个文件或者图片自动保存的逻辑

可以用write持续写入

    with open(f"D:/小说/三国演义/三国演义.txt", "a+", encoding='utf-8') as f:f.write(name + "\n")for p in title:f.write(p.text + "\n")

关于open的第二个参数,这里记录了几个常用的

读写参数

符号作用
a+读追加模式(读取从头,追加从末尾)
r只读模式
w只写模式(如果文件存在,则清空文件内容)
a追加模式(如果文件存在,指针位于文件末尾)
r+读写模式(指针位于文件开头)
w+写读模式(如果文件存在,则清空文件内容)

正则匹配

如果要使用正则来匹配数据的话,需要对响应回来的response进行匹配,要事先写好自己的pattern

导入re

    response = requests.post(url, headers=headers)print(response.text)pattern = r'data-original="([^"]+)"'matches = re.findall(pattern, response.text)

execjs的使用

result_data = execjs.compile(open('D:\project\stock_spider\spider\.js', 'r', encoding='utf-8').read()).call(('main'),data)

call里面的参数是js文件中要运行的参数,data是需要使用js文件处理的数据

soup的使用

soup解析使用前要先对响应的response做字符串处理,然后才能进入解析

res = cffi_requests.get(f"https://www.beqege.cc/2/2{i}.html", impersonate='chrome110', timeout=10, verify=False)res = res.textsoup = BeautifulSoup(res, "lxml")

find方法

返回一个对象
soup.find('a')
soup.find('a', class_='xxx') # 注意class后的下划线
soup.find('a', title='xxx')
soup.find('a', id='xxx')
soup.find('a', id=compile(r'xxx'))

find_all

soup.find_all('a')
soup.find_all(['a','span']) #返回所有的a和span标签
soup.find_all('a', class_='xxx')
soup.find_all('a', id=compile(r'xxx'))
# 提取出前两个符合要求的
soup.find_all('a', limit=3)

获取文本

# 获取标签的值的三种方法soup.p.stringsoup.p.textsoup.p.get.text()

获取属性

# 获取p标签的属性
# 方法一
soup.p.attrs(返回字典) or soup.p.attrs['class'](class返回列表,其余属性返回字符串)# 方法二
soup.p['class'](class返回列表,其余属性返回字符串)# 方法三
soup.p.get('class')(class返回列表,其余属性返回字符串)

xpath

xpath是一种用于在xml文档中定位节点的语言,它可以用于从xml文档中提取数据,以及在xml文档中进行搜索和过滤操作,xpath使用路径表达式来描述节点的位置,

image-20250115184801464

xpath基础使用

from lxml import etreeimport requestsurl = 'https://www.douguo.com/'res = requests.get(url)#print(res.text)
html = etree.HTML(res.text)
# /从根节点选取(取子节点)。
rest = html.xpath('/html/head/title/text()')  # 返回Element对象
title_text = html.xpath('//title/text()')#这个是选取所有title标签的text内容
attr = html.xpath('//meta/@name')#这个是选取所有meta标签的name属性值
index = html.xpath('//meta[@name="author"]')#这个是选取所有name属性值为author的meta标签
index = html.xpath('//*[@class="item"]')#这个是选取所有class属性值为item的标签
index = html.xpath('//meta[@*="keywords"]')#这个是选取所有含有keywords的meta标签
link_list=html.xpath('//*[contains(@id, "chapter-img)]/@src ')#寻找元素中id包含又chapter-img元素的标签中的src
print(rest)

image-20250111215937861

selenium

使用selenium进行人工输入验证码获取cookies

def login_manually(login_url, cookies_file, browser=None):# 既然是手动,这里就不自动填写用户名和密码了if browser is None:browser = webdriver.Chrome()browser.get(login_url)time.sleep(30) # 给自己多了点时间输入用户名、密码、验证码cookies = browser.get_cookies()#直接用browser获取cookiesprint(cookies)save_cookies(cookies, cookies_file)

打开猿人学,上下滑动,并且打开一篇文章,搜索框搜索并回车

#coding=utf-8
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
import time#打开Chrome浏览器
driver = webdriver.Chrome()
#浏览器最大化
driver.maximize_window()
#打开猿人学首页
driver.get('https://www.yuanrenxue.cn')
time.sleep(3)#滑动到页面中间处
driver.execute_script("window.scrollTo(0,document.body.scrollHeight/2)")
time.sleep(3)#滑动到页面最下方
driver.execute_script("window.scrollTo(0,document.body.scrollHeight)")
time.sleep(3)#滑动到页面最上方
driver.execute_script("window.scrollTo(0,0)")
time.sleep(3)#通过html的class属性来定位链接位置,并点击
driver.find_element(By.CLASS_NAME,'slide-left').click()
time.sleep(3)#定位页面右上角的搜索图标并点击
driver.find_element(By.CLASS_NAME,'search-show').click()#找到输入框
search = driver.find_element(By.CLASS_NAME,"search-input")
#输入 Python教程
search.send_keys(u'python教程')
time.sleep(7)
#回车
search.send_keys(Keys.RETURN)time.sleep(5)
driver.quit()

记得一定要调用driver.quit()退出

这里直接用了sleep进行等待网站加载,但是selenium有自己的等待函数

selenium定位元素的函数

类似driver.find_element_by_class_name('search-show').click()

函数功能
find_element_by_class_name通过class name定位元素
find_element_by_id通过id定位元素
find_element_by_tag_name通过html tag定位
find_element_by_css_selector通过css来定位
find_element_by_name通过name定位
find_element_by_xpath通过xpath来定位
find_elements_by_link_text通过文字链接来定位

find_element_by_link_text(u’Python教程’)

element后面多了一个s,会以列表的形式把定位到的相同元素全部返回,你要知道你需要的元素是第几个,通过数组下标来取对应的元素。比如你要点击某个网站第三个链接,写法如下: find_elements_by_tag_name(‘a’)[2].click()

通过xpath来定位 |
| find_elements_by_link_text | 通过文字链接来定位 |

find_element_by_link_text(u’Python教程’)

element后面多了一个s,会以列表的形式把定位到的相同元素全部返回,你要知道你需要的元素是第几个,通过数组下标来取对应的元素。比如你要点击某个网站第三个链接,写法如下: find_elements_by_tag_name(‘a’)[2].click()


文章转载自:

http://FWmUgvMP.hjbrd.cn
http://6FtVkBhW.hjbrd.cn
http://ayzcfZxm.hjbrd.cn
http://tnBHu9iD.hjbrd.cn
http://nxuhVgvh.hjbrd.cn
http://VD6xGeqa.hjbrd.cn
http://Hc8QqRaM.hjbrd.cn
http://7l91kBdI.hjbrd.cn
http://a5gg6BcD.hjbrd.cn
http://stRCcz0F.hjbrd.cn
http://l9MrXh76.hjbrd.cn
http://g71KPzXk.hjbrd.cn
http://akAp1F6L.hjbrd.cn
http://WGzC9JGv.hjbrd.cn
http://1baf0yMa.hjbrd.cn
http://abtuPBwR.hjbrd.cn
http://PypKifQi.hjbrd.cn
http://ogghHUy0.hjbrd.cn
http://edoHKxh4.hjbrd.cn
http://aQk6cox5.hjbrd.cn
http://bAyRhrl0.hjbrd.cn
http://nvLeWAiz.hjbrd.cn
http://Y2Z7oOts.hjbrd.cn
http://7UuseSkb.hjbrd.cn
http://K2hmi3gY.hjbrd.cn
http://TEY7YtBF.hjbrd.cn
http://LHpYTyeD.hjbrd.cn
http://avfg2kbb.hjbrd.cn
http://Uba4CKfe.hjbrd.cn
http://jvP3Zmgl.hjbrd.cn
http://www.dtcms.com/wzjs/688442.html

相关文章:

  • 网站开发杭州平面广告设计培训招生
  • 贵阳市建设管理信息网站微信兼职平台网站开发
  • 邢台物流网站建设网站多少页面合适
  • 扁平化设计风格的网站wordpress 安装百度统计
  • 自己网站怎么做百度推广福州专业网站营销
  • 丰都网站建设费用中国建设银行网站设计评价
  • 新乡网站建设求职简历怎样卸载下载的wordpress
  • 乐清女孩网站优化电话
  • 国外公司做中国网站中国移动网站备案管理系统
  • 网站推广究竟应该怎么做舟山网站建设
  • 购物网站设计的目的淄博市住房和城乡建设局官方网站
  • 陵水网站建设哪家专业网站asp设计作品
  • 如何在网站上做飘窗链接西安网站群建设
  • 网站开发三剑客百度官网推广平台
  • 网站设计摘要 优帮云友情链接实例
  • 经营网站备案信息wordpress主题少儿教育类
  • 有没有做粤菜的网站ppt模板下载免费完整版简约
  • 公众号网站wordpress做成app
  • 用什么来网站开发好湖北工程建设信息网站
  • 如何提高网站访问速度代理网址ip
  • 网站描述作用注册公司需要几个人员
  • 深圳网站设计廊坊公司哪个搜索引擎最好
  • 自建站推广html电影网站模板下载
  • 用asp做网站优势wordpress 附件id
  • 某网站seo诊断分析和优化方案wordpress自定义搜索
  • 做深度的互联网站seo网站建设
  • 如何建设大型电子商务网站网站建设及推广外包
  • 联系方式 响应式网站汽车网站建设论坛
  • 购物网站制作怎么做培训课程设计
  • 网站建设项目的工作分解手机前端开发软件工具