当前位置: 首页 > news >正文

探索Trae:使用Trae CN爬取 Gitbook 电子书

请添加图片描述
在以前使用过Cursor,但是后期由于试用资源很少,免费资源用完我就卸载掉啦,最近又需要开展相关工作,因此下载了最新版的Trae。Trae 2.0最近很火,我正好想要爬取某一个Gitbook 电子书,因此尝试使用Trae和Python进行爬取,在尝试完成后,大感AI代码编辑器真好!!!尽管我没啥爬虫基础,但是也完成了目标。

我使用Kimi-K2模型,第一次代码基本是成功运行,但是存在几个小的问题:重新爬取,总体上爬取成功,但是我有三个新的要求:(1)要把图片也保存下来,目前图片没有成功保存,例如是这样的内容:(assets/WebGIS.png) ;(2)每一个md文档末尾都有# results matching “”# No results matching ""这样的内容,请删除;(3)将所有的文件合并成一个md文档,并且按照情况调整大纲级别。

第二次也是运行成功,但是出现了新的小问题:(1)图片保存在assets文件夹内,在md文档中 图片使用相对路径 assets/xxx.png这样的路径;(2)很多图片没有下载成功,需要重新下载,打开后显示图片损坏;(3)删除原文链接相关的内容。因此,第三次运行脚本。

此次修改后仍旧有问题,再次提示:我在先前已经执行过了3次命令,并且已经生成了第三版的代码。我的目的是将目标网站的章节爬取下来,保存为md文档。第三版已经基本成功,但是出现了两个补充修改:(1)二级标题很多是重复出现了3次,并且部分标题的大纲级别不对,要按照科学的情况组织大纲级别;(2)把所有的代码块的代码语言设置成JS。

这样处理完后:

http://www.dtcms.com/a/323242.html

相关文章:

  • 【Doris】实时分析型数据库
  • 走遍美国5 The Right Magic 钓鱼秘决
  • 【Python 语法糖小火锅 · 第 3 涮】
  • 【RabbitMQ】高级特性—TTL、延迟队列详解
  • Java 中的编译与反编译:全面解析与实践指南
  • drippingblues靶机
  • 四边形(梯形、平行四边形、矩形、菱形和正方形)
  • [贪心]田忌赛马
  • Aurora接口FPGA设计
  • QT Creator 5.14.2安装
  • 卷板矫平机:给一张钢板做“拉伸放松操”
  • 北大回应录取通知书被指存在语句问题
  • Claude Code 与 Cursor 技术对比:架构差异与适用场景分析
  • 四、RuoYi-Cloud-Plus 部署时nacos配置服务启动
  • NVIDIA Jetson实战笔记
  • 相册管理系统介绍
  • <PLC><汇川><字符转换>在汇川PLC中,如何进行字符串的转换与比较?
  • 实数与复数及欧拉公式关系
  • WeTok Powerful Discrete Tokenization for High-Fidelity Visual Reconstruction
  • DAY 37 作业(补)
  • vue3上传的文件在线查看
  • Mistral Small 3.1 架构深度解析:高效小型模型的巅峰之作
  • 华数杯C题:可调控生物节律的LED光源研究——数学建模与Python实战
  • 应用层Http协议(1)
  • 大玄古籍制作软件【详细教程20:txt文档config自动化配置】,排版软件,自动排版,排版设计,个人出书,一键排版
  • MATLAB中文乱码的解决方法
  • 吴恩达机器学习笔记(4)—多变量线性回归:梯度下降(附代码)
  • STM32学习笔记6-TIM-2输出比较功能
  • Python(13) -- 面向对象
  • 智慧能源设备巡检缺陷漏检率↓76%:陌讯多模态融合算法实战解析