当前位置: 首页 > news >正文

重会python爬虫学习----1

几种请求方式

一些请求工具,技术栈

还有就是aiohttp这个。

进阶的就是用chrome断点调试javascript

还有就是用charles 和fiddle抓包分析了,

如何发现ajax加载url呢

1.就是用chrome浏览器f12调出开发者工具了

如net work

typr有 xhr,用筛选器是filter xhr

返回的结果又有哪些呢

json,xml,html

 还有的就像是表现为瀑布流,实现是ajax.当你网页下拉到底部的时候,ajax加载下一页

还有就是js的解密了

我们打开网页加载的js----有下面的情况:压缩,打包,混淆

晦涩难懂,,pretty格式,但变量函数名难懂

我们要找到js加密的解密算法的代码——可以用charles抓包分析,也可以用chrome调试javascript.

对于技术的选择

异步并发,分布式爬虫

SEO(Search Engine Optimization)即搜索引擎优化,是一种通过优化网站结构、内容和代码,提高网站在搜索引擎自然搜索结果中排名的技术。对于新闻网站而言,SEO 的常见做法包括:

  1. 静态化 URL:将动态 URL 转换为包含关键词的静态 URL(如https://news.example.com/2023/05/15/coronavirus-update.html
  2. 关键词优化:在 URL、标题和内容中合理分布关键词
  3. 元标签优化:优化 title、description 等 HTML 元标签
  4. 内容质量:提供有价值、原创的内容

清洗新闻 URL 的函数实现

针对你提到的新闻 URL 特点,我可以帮你实现一个清洗 URL 的函数,用于去除不必要的参数,避免重复抓取

相关文章:

  • 【OSG学习笔记】Day 18: 碰撞检测与物理交互
  • 腾讯开源 AniPortrait:音频驱动的逼真肖像动画生成革命
  • LeetCode:912归并排序,洛谷:ACM风格
  • leetcode:42. 接雨水(秒变简单题)
  • 聊一聊 - 如何像开源项目一样,去设计一个组件
  • Linux系统编程-DAY12
  • Ubuntu下挂载NTFS格式磁盘
  • 延伸大疆AI能力:Coovally一键训练模型,直通无人机部署
  • SALOME源码分析: libBatch
  • [FX5U-PLC] 双重联锁正反转的继电接触控制线路
  • Matlab点云合并函数pcmerge全解析
  • 【算法篇】逐步理解动态规划模型5(子序列问题)
  • 《Playwright:微软的自动化测试工具详解》
  • MySQL学习之---索引
  • 关于类型断言的小细节
  • 【SAP MM SD FICO】销售视图和会计视图
  • 数据库——MongoDB
  • Java判断规则工具类
  • 【杂谈】-递归进化:人工智能的自我改进与监管挑战
  • 60天python训练计划----day50
  • 文化传播网站建设/单页网站
  • 做微信公众号的网站/贵阳seo网站管理
  • 微小店网站建设比较好/安徽疫情最新情况
  • 扁平化网站模板下载/培训机构加盟
  • 如何做网站内页排名/atp最新排名
  • 河北省建设厅网站工程师查询/信息流广告代理商排名