当前位置：首页 > news >正文

重会python爬虫学习----1

news 2025/9/24 5:17:55

几种请求方式

一些请求工具，技术栈

还有就是aiohttp这个。

进阶的就是用chrome断点调试javascript

还有就是用charles 和fiddle抓包分析了，

如何发现ajax加载url呢

1.就是用chrome浏览器f12调出开发者工具了

如net work

typr有 xhr,用筛选器是filter xhr

返回的结果又有哪些呢

json,xml,html

还有的就像是表现为瀑布流，实现是ajax.当你网页下拉到底部的时候，ajax加载下一页

还有就是js的解密了

我们打开网页加载的js----有下面的情况：压缩，打包，混淆

晦涩难懂，，pretty格式，但变量函数名难懂

我们要找到js加密的解密算法的代码——可以用charles抓包分析，也可以用chrome调试javascript.

对于技术的选择

异步并发，分布式爬虫

SEO（Search Engine Optimization）即搜索引擎优化，是一种通过优化网站结构、内容和代码，提高网站在搜索引擎自然搜索结果中排名的技术。对于新闻网站而言，SEO 的常见做法包括：

静态化 URL：将动态 URL 转换为包含关键词的静态 URL（如https://news.example.com/2023/05/15/coronavirus-update.html）
关键词优化：在 URL、标题和内容中合理分布关键词
元标签优化：优化 title、description 等 HTML 元标签
内容质量：提供有价值、原创的内容

清洗新闻 URL 的函数实现

针对你提到的新闻 URL 特点，我可以帮你实现一个清洗 URL 的函数，用于去除不必要的参数，避免重复抓取

http://www.dtcms.com/a/242410.html

相关文章：

【OSG学习笔记】Day 18: 碰撞检测与物理交互

腾讯开源 AniPortrait：音频驱动的逼真肖像动画生成革命

LeetCode:912归并排序，洛谷：ACM风格

leetcode：42. 接雨水(秒变简单题）

聊一聊 - 如何像开源项目一样，去设计一个组件

Linux系统编程-DAY12

Ubuntu下挂载NTFS格式磁盘

延伸大疆AI能力：Coovally一键训练模型，直通无人机部署

SALOME源码分析: libBatch

[FX5U-PLC] 双重联锁正反转的继电接触控制线路

Matlab点云合并函数pcmerge全解析

【算法篇】逐步理解动态规划模型5（子序列问题）

《Playwright：微软的自动化测试工具详解》

MySQL学习之---索引

关于类型断言的小细节

【SAP MM SD FICO】销售视图和会计视图

数据库——MongoDB

Java判断规则工具类

【杂谈】-递归进化：人工智能的自我改进与监管挑战

60天python训练计划----day50

如何判断Cursor邮箱被封？

《ZLMediaKit 全流程实战：从部署到 API 调用与前后端集成》

【生物信息学】摇摆配对(Wobble Hypothesis)

RAG系统向量数据库选型与Prompt Engineering鲁棒性测试实践

人工智能产业融合新时代：路径、挑战与战略思维

从设备监控到人员调度，可视化赋能车间全场景

KubeSphere 容器平台高可用：环境搭建与可视化操作指南

go全局配置redis，全局只需要连接一次，然后全局可以引用使用

光伏功率预测 | BP神经网络多变量单步光伏功率预测（Matlab完整源码和数据）

filebeat原理架构