当前位置: 首页 > news >正文

【Shell】模拟爬虫下载天龙八部小说

Shell脚本: 

#curl https://tianlong.5000yan.com/ -o tianlong.html
grep "href=" tianlong.html | grep html | awk -F"\"" '{ print $6 }' >> urls.txt
grep "href=" tianlong.html | grep html | awk -F">" '{ print $3 }' | awk -F"<" '{ print $1 }' >>titles.txt

exec 3<urls.txt
exec 4<titles.txt

while read -u 3 url && read -u 4 title
do
	echo "$title : $url"
	curl "$url" -o "${title}.html"
done

exec 3<&-
exec 4<&-

下载后的文件:

下载后的效果:

相关文章:

  • 关于Spring MVC处理JSON数据集的详细说明,涵盖如何接收和发送JSON数据,包含代码示例和总结表格
  • Java中介者模式详解
  • introduceHLSL
  • 2.7/Q2,Charls最新文章解读
  • 数智读书笔记系列027:《医疗健康大数据治理》构建智慧医疗的核心基石
  • JS Bom对象
  • AI小白:AI算法中常用的数学函数
  • 【正点原子】STM32MP135去除SD卡引脚复用,出现 /dev/mmcblk1p5 not found!
  • (done) 并行计算 CS149 Lecture4 (并行编程基础)
  • C++自学笔记——动态创建对象
  • 【Linux高级IO(二)】初识epoll
  • 我的NISP二级之路-01
  • Docx4j 设计思想、工作原理与核心接口说明(基于 3.2.2 版本)
  • 【学习笔记】CoACD: 基于碰撞感知凹性与树搜索的近似凸分解
  • 【读者写者问题与读写锁】
  • C/C++ 调用约定:深入理解栈与平栈
  • OpenVLA-OFT——微调VLA时加快推理的三大关键设计:支持动作分块的并行解码、连续动作表示以及L1回归(含输入灵活化及对指令遵循的加强)
  • 第16届蓝桥杯单片机模拟试题Ⅱ
  • Java 大视界 -- Java 大数据机器学习模型在智能客服多轮对话系统中的优化策略(179)
  • 计算机系统---性能指标(3)续航与散热
  • 接做网站简介/郑州网络推广厂家
  • 做网站遇到的问题及解决方法/搜索引擎网站有哪些
  • 婚车网站模版/看网站搜什么关键词
  • 深圳银行网站建设/淘宝店铺买卖交易平台
  • 十堰网站建设哪家好/网站seo什么意思
  • 专门做正品的网站/站长统计ios