当前位置: 首页 > news >正文

【办公类-120-01】20251016 UIBOT下载小说做成docx

我有想看的网络小说,终于完结了。部分网站也贴出了全文。

本来我是手机看的,但是手机这些网站,总是跳出一堆广告(带有huang\du\du)网站依靠广告生存,无可厚非,但是我看起来非常难受。

所以我想用UIBOT去网站上把文字下载下来,做成docx再看

https://www.lewen.org/txt/3158645.html

主要提取标题、正文段落(这个页面的都是一段段落,可以批量抓取)

以上是第一页,有的页面就不是这个页面了

所以我做了两个可能,两种页面抓取

Dim sRet,objWord,标题,文字,arrayData,temp,bRet,文字翻页
objWord = Word.Open('''C:\Users\jg2yXRZ\OneDrive\桌面\军校生\10.docx''',"","",true)
// For i = 0 To 1 step 1// 标题 = UiElement.GetValue(@ui"标题<h1>_第1章(第1页)1",{"bContinueOnError":false,"iDelayAfter":300,"iDelayBefore":200})// Word.Write(objWord,标题)
// TracePrint(标题)// Word.Write(objWord,"\n")
// 段落 = UiElement.DataScrap({"wnd":[{"cls":"Chrome_WidgetWin_1","title":"*","app":"chrome"},{"cls":"Chrome_RenderWidgetHostHWND","title":"Chrome Legacy Window"}],"html":[{"tag":"HTML"}]},{"ExtractTable":0,"Columns":[{"selecors":[{"tag":"div","index":2,"className":"wp ov","value":"div:nth-child(2)","prefix":""},{"tag":"div","index":0,"className":"info_dv1 ov y","value":"div.info_dv1.ov.y","prefix":">"},{"tag":"p","value":"p","index":0,"prefix":">"}],"props":["text"]}]},{"objNextLinkElement":'',"iMaxNumberOfPage":5,"iMaxNumberOfResult":-1,"iDelayBetweenMS":1000,"bContinueOnError":False})
// Word.Write(objWord,段落)// TracePrint(文字)
// Mouse.Action(@ui"链接<a>","left","click",10000,{"bContinueOnError": false, "iDelayAfter": 300, "iDelayBefore": 200, "bSetForeground": true, "sCursorPosition": "Center", "iCursorOffsetX": 0, "iCursorOffsetY": 0, "sKeyModifiers": [],"sSimulate": "simulate", "bMoveSmoothly": false})
// Next
For i = 0 To 4000 step 1bRet = UiElement.Exists(@ui"链接<a>2",{"bContinueOnError":false,"iDelayAfter":300,"iDelayBefore":200})
TracePrint($PrevResult)
If bRet=true 标题 = UiElement.GetValue(@ui"标题<h1>_第156章(第1页)",{"bContinueOnError":false,"iDelayAfter":300,"iDelayBefore":200})
Word.Write(objWord,标题+"\n")
文本 = UiElement.GetValue(@ui"块级元素<div>_长生姐和莲心……一个连100年寿命都不放过。一个随随便便就给黎漾700年。两相对",{"bContinueOnError":false,"iDelayAfter":300,"iDelayBefore":200})
Word.Write(objWord,文本+'\n')
Mouse.Action(@ui"链接<a>1","left","click",10000,{"bContinueOnError": false, "iDelayAfter": 300, "iDelayBefore": 200, "bSetForeground": true, "sCursorPosition": "Center", "iCursorOffsetX": 0, "iCursorOffsetY": 0, "sKeyModifiers": [],"sSimulate": "simulate", "bMoveSmoothly": false})
Delay(3000)
End If
If bRet=false 标题 = UiElement.GetValue(@ui"标题<h2>_第88章(第1页)",{"bContinueOnError":false,"iDelayAfter":300,"iDelayBefore":200})
Word.Write(objWord,标题+"\n")文字翻页 = UiElement.DataScrap({"wnd":[{"cls":"Chrome_WidgetWin_1","title":"*","app":"chrome"},{"cls":"Chrome_RenderWidgetHostHWND","title":"Chrome Legacy Window"}],"html":[{"tag":"HTML"}]},{"ExtractTable":0,"Columns":[{"selecors":[{"tag":"div","index":2,"className":"wp ov","value":"div:nth-child(2)","prefix":""},{"tag":"div","index":0,"className":"info_dv1 ov y","value":"div.info_dv1.ov.y","prefix":">"},{"tag":"p","value":"p","index":0,"prefix":">"}],"props":["text"]}]},{"objNextLinkElement":'',"iMaxNumberOfPage":5,"iMaxNumberOfResult":-1,"iDelayBetweenMS":1000,"bContinueOnError":False})
For Each value In 文字翻页For Each v In valueTracePrint(v)Word.Write(objWord,v+'\n')
NextNext
Mouse.Action(@ui"链接<a>_下一章5","left","click",10000,{"bContinueOnError": false, "iDelayAfter": 300, "iDelayBefore": 200, "bSetForeground": true, "sCursorPosition": "Center", "iCursorOffsetX": 0, "iCursorOffsetY": 0, "sKeyModifiers": [],"sSimulate": "simulate", "bMoveSmoothly": false})
Delay(3000)
End IfNext
Word.Save(objWord)
Word.Quit()

差不多下载了18个小时,因为一章可能就有6-10页。有时候网络卡死,页面空白,就中断报错了

终于下完了

这种页面,提取的段落,所以写到word也是分段的

少量出现这种页面,

虽然可以抓取段落,但是两次后,显示的提取不到数据

所以抓了整段

但是显示出来的内容也是挤在一起的,看起来不舒服。不过现在也没有更好的办法了

http://www.dtcms.com/a/494964.html

相关文章:

  • RestTemplate发送Post请求报错:414 URI Too Long
  • 热力图:从逸出数据到宏观模式识别
  • 解决 gf / gau 与 Oh-My-Zsh 别名冲突的两种办法
  • 开源链动2+1模式、AI智能名片与S2B2C商城小程序:社群经济的数字化重构路径
  • 【详解vtkVoxelContoursToSurfaceFilter】:从有序XY平面轮廓生成三维表面
  • 版本控制器Git
  • 网站版建设南通制作企业网站
  • 网站后台管理系统的重要技术指标收录快的门户网站
  • 降本增效:如何用RustFS将企业存储TCO降低50%?
  • 当AI遇到信息系统:以AI+用户推荐的标签生命周期为例——标签为什么需要“死亡“?
  • 数据结构入门 (九):线索的“寻路”指引 —— 详解线索二叉树
  • wordpress 织梦十堰网站优化
  • Vue+ts 如何实现父组件和子组件通信
  • 广告制作网站源码高端网站设计公司
  • cpp-stub工作原理详细举例解析
  • 香港服务器CPU中E5和Gold的区别
  • linux shell编程实战 02 变量与交互式输入
  • 网站下载怎么做如何建一个免费试用网站
  • 【LeetCode热题100(45/100)】二叉树展开为链表
  • VUE封装axios调用
  • python的scikit-image库的功能介绍(亲测)
  • 做go分析的网站第一成品网站超市
  • ArrayList和LinkedList的区别
  • PinWin,一个窗口置顶工具
  • 一键式搜索引擎Hacking工具
  • CasADi:高性能数值优化与自动微分工具库详解
  • 中英文网站建设企业网站列表设计
  • 在 iOS 18 中,控制中心怎样添加应用快捷方式?
  • C++类型转换
  • 【Memory协议栈】Autosar架构下如何加速Fee的切页时间