当前位置: 首页 > news >正文

爬取网站内容转为markdown 和 html(通常模式)

我们遇到一些自己喜欢内容,想保存下来,手动复制粘贴很麻烦,我们使用 python 来爬取这些内容。

一、代码

downlod.py

import os
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin

# 目标网页(可以更改)
url = "https://www.baidu.com"

# 指定保存的文件夹和 Markdown 文件名
save_folder = "web_md"
os.makedirs(save_folder, exist_ok=True)
md_filename = os.path.join(save_folder, "page.md")
images_folder = os.path.join(save_folder, "images")
os.makedirs(images_folder, exist_ok=True)

# 获取网页内容
response = requests.get(url)
response.encoding = response.apparent_encoding
soup = BeautifulSoup(response.text, "html.parser")

# 打开 Markdown 文件
with open(md_filename, "w", encoding="utf-8") as md_file:
    md_file.write(f"# {soup.title.string.strip()}\n\n")

    for element in soup.body.find_all(["p", "a", "code", "img", "h1", "h2", "h3", "h4", "h5", "h6", "pre"], recursive=True):
        if element.name == "h1":
            md_file.write(f"\n# {element.get_text(strip=True)}\n\n")
        elif element.name == "h2":
            md_file.write(f"\n## {element.get_text(strip=True)}\n\n")
        elif element.name == "h3":
            md_file.write(f"\n### {element.get_text(strip=True)}\n\n")
        elif element.name == "h4":
            md_file.write(f"\n#### {element.get_text(strip=True)}\n\n")
        elif element.name == "p":
            md_file.write(f"{element.get_text(strip=True)}\n\n")
        elif element.name == "a":
            link_text = element.get_text(strip=True)
            href = urljoin(url, element["href"])
            md_file.write(f"[{link_text}]({href})\n\n")
        elif element.name == "code":
            md_file.write(f"```\n{element.get_text(strip=True)}\n```\n\n")
        elif element.name == "pre":
            md_file.write(f"```\n{element.get_text()}\n```\n\n")
        elif element.name == "img":
            img_url = urljoin(url, element["src"])
            img_name = os.path.basename(img_url).split("?")[0]
            img_path = os.path.join(images_folder, img_name)
            try:
                img_data = requests.get(img_url).content
                with open(img_path, "wb") as img_file:
                    img_file.write(img_data)
                md_file.write(f"![{img_name}](images/{img_name})\n\n")
            except Exception as e:
                print(f"下载 {img_url} 失败: {e}")

print(f"Markdown 文件已保存至 {md_filename}")

二、安装环境

  1. 安装 python
  2. 管理员运行 cmd,最好挂梯子
pip install requests beautifulsoup4

在这里插入图片描述
3. 在 downlod.py 同级目录下运行cmd

python download.py

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

三、vscode + markdown all in one

  1. 安装 vscode
  2. vscode 的扩展安装 markdown all in one
    在这里插入图片描述
  3. vscode 打开下载的 md 文件
  4. 点击右上角的 预览 按钮,即可预览转换后的 md 文件
    在这里插入图片描述
  5. ctrl + shift + p,打开命令模式
  6. 输入 markdown ,使用这个命令,可以将md转为 html 格式
    在这里插入图片描述
    在这里插入图片描述

相关文章:

  • 代码随想录-- 第一天图论 --- 岛屿的数量
  • ArcGis和Super Map
  • 接入DeepSeek后,智慧园区安全调度系统的全面提升
  • 怎样从零基础开始学习大模型
  • Vue2/Vue3自定义指令
  • 从零开始构建一个语言模型中vocab_size(词汇表大小)的设定规则
  • v4l2子系统学习(一)V4L2应用程序编程
  • Python3测试开发面试题2
  • 在echarts的tooltip组件中使用vue3自定义组件
  • Spring Bean生命周期通俗讲解
  • VScode C语言学习开发环境;运行提示“#Include错误,无法打开源文件stdio.h”
  • php文件包含
  • C extern在函数声明中的作用
  • 各类数据质量等相关学习地址
  • vmware centos 10 stream boot 安装
  • 【算法】快排-786. 第k个数
  • 23. AI-大语言模型-DeepSeek
  • MySQL登录问题总结
  • 【Reasoning】LLaMA-Berry: Pairwise Optimization for O1-like Olympiad-Level Mathematical Reasoning
  • Linux 内核中的 container_of 宏:以 ipoib_rx_poll_rss 函数为例
  • 图忆|上海车展40年:中国人的梦中情车有哪些变化(上)
  • 证监会副主席王建军被查
  • 马上评|什么才是地方文旅宣传的正确姿势
  • 民生银行一季度净利127.42亿降逾5%,营收增7.41%
  • 助力企业高质量出海,上海静安发放服务包、服务券
  • 国家核准10台核电新机组,四大核电央企披露新项目进展