当前位置: 首页 > news >正文

python爬虫自动库DrissionPage保存网页快照mhtml/pdf/全局截图/打印机另存pdf

如何使用页面打印功能,另存为pdf

一、保存网页快照的三种方法
看如下代码,如下三种保存快照的方法,分别是保存pdf、保存mhtml文件、保存全局截图,的方法,具体看网页加载情况可以设置滚动到底部再进行如下操作等

from DrissionPage import ChromiumPage
from urllib.parse import urlparse
browser = ChromiumPage()url = "https://www.baidu.com/"
file_name = urlparse(url).netloc.split(':')[0].lstrip('www.')
browser.get(url)
browser.save(path="D:\\", name=file_name, as_pdf=True)
browser.save(path="D:\\", name=file_name, as_pdf=False)
browser.get_screenshot(path="D:\\", name=file_name, full_page=True) 
二、利用打印机保存pdf的方法
  • 常规步骤,一般我们在浏览器打开网页,然后鼠标右击检查,选择打印,会出现如下页面,然后我们选择另存为pdf,保存这么一个流程,那么dp如何实现这个流程,代码在文章末尾
    在这里插入图片描述

  • 打印机保存pdf最终代码

    import json
    from DrissionPage import ChromiumPage, ChromiumOptionssettings = {"recentDestinations": [{"id": "Save as PDF", "origin": "local", "account": ""}],"selectedDestinationId": "Save as PDF","version": 2,  # 另存为pdf,1 是默认打印机"isHeaderFooterEnabled": True,  # 是否勾选页眉和页脚# "customMargins": {}, # "marginsType": 2,  # "scaling": 100, # 缩放  # "scalingType": 3, # "scalingTypePdf": 3,"isLandscapeEnabled": False,  # landscape横向,portrait 纵向,若不设置该参数,默认纵向"isCssBackgroundEnabled": True,  # 是否勾选背景图形"mediaSize": {"height_microns": 297000,  "name": "ISO_A4",  "width_microns": 210000, "custom_display_name": "A4 210 x 297 mm"},
    }
    co = ChromiumOptions()
    co.set_argument("--window-size=1920, 1080")
    co.set_pref('printing.print_preview_sticky_settings.appState', json.dumps(settings))
    co.set_pref('savefile.default_directory', r'D:\\')   # 修改为网页转PDF后要保存的路径
    co.set_argument('--kiosk-printing')  # 静默打印,无需用户点击打印页面的确定按钮
    print(co.preferences)
    browser = ChromiumPage(co)
    browser.get("https://www.baidu.com/")
    browser.run_js(f'document.title="{browser.title}";window.print();', timeout=6)  # 利用js修改网页的title,该title最终就是PDF文件名,利用js的window.print可以快速调出浏览器打印窗口,避免使用热键ctrl+P
    

  • 参考文章
    https://www.cnblogs.com/caroline2016/p/18348831
    https://shandianchengzi.blog.csdn.net/article/details/137883196
  • 调用浏览器打印机,另存为pdf
    co.set_argument("--print-to-pdf")
    co.set_pref("download.prompt_for_download", False)
    co.set_pref('plugins.always_open_pdf_externally', False)
    co.set_pref('plugins.plugins_disabled', ["Chrome PDF Viewer"])
    co.set_pref('profile.default_content_settings.popups', 0)
    co.set_pref('directory_upgrade', True)
    co.set_argument('--enable-print-browser')
    browser.run_js("return window.print()", timeout=6)
    """
    

http://www.dtcms.com/a/577840.html

相关文章:

  • [Avoid-MPC] 基于双KD树模型预测控制的无地图避障飞行
  • 结构电池复合材料:定义、组成、优势与应用
  • 大学生旅游网站策划书巴中微信开发 做网站
  • 慈溪企业网站seo上海网页制作与网站设
  • 【AI学习-comfyUI学习-Controlnet线稿工作流-各个部分学习-第三步】
  • EPLAN电气设计:快捷键版本差异解析
  • Mac 下配置Charles踩坑之旅
  • 网站建设公司整站源码so域名的网站
  • Java 大视界 --Java 大数据机器学习模型在金融风险压力测试中的应用与验证
  • 剧白白 v3.3.0 多影视源观影软件,看电影,电视剧,看综艺
  • 批处理的应用与价值
  • 海南网站制作多少钱网站建设公司哪个好呀
  • 福州网站建设公司哪家好宁波网站建设信息网
  • Gateway整合knife4报错404 (Not Found)
  • X5的相机同步方案
  • 广东的互联网公司有哪些河南网站建设优化
  • LABVIEW与MATLAB混合编程:基于信号滤波与智能波谷替换的精确波形重构技术
  • 绍兴网站建设设计制作wordpress曹鹏
  • [pyqt5]pyqt5安装后测试代码
  • 利用淘宝联盟做网站赚取佣金公司基本资料模板
  • C#:三元运算符
  • 运放单电源供电和双电源供电的实际应用案例
  • 企业微信SCRM怎么选?工具适配与落地实操指南
  • 动作测评依赖AI技术如何变得更加科学、客观?
  • 邢台市路桥建设公司网站宁波北仑装修公司排行
  • 网站开发专业能力公司培训
  • Tongweb8部署应用
  • 电商设计文档
  • 金丝桃属植物中呫吨酮的生物合成提供苯甲酰辅酶 A--文献精读173
  • Linux一些基本命令--黑马学习