当前位置: 首页 > news >正文

python小记(十六):Python 中 os.walk:深入理解与应用实践

Python 中 os.walk:深入理解与应用实践

    • 引言
    • 一、什么是 `os.walk`
    • 二、函数签名与参数详解
    • 三、返回值说明
    • 四、典型用法与示例
      • 1. 遍历并打印所有文件
      • 2. 按文件后缀搜索
      • 3. 批量重命名或移动文件
    • 五、进阶参数与高级用法
      • 1. `topdown=False`:后序遍历
      • 2. `onerror`:捕获遍历异常
      • 3. `followlinks=True`:跟随符号链接
    • 六、性能与注意事项
    • 七、小结



引言

在 Python 文件与目录的批量处理场景中,我们常常需要递归地遍历一个目录下的所有子目录和文件,然后做诸如搜索、统计、重命名、删除等操作。os.walk 正是标准库中一个非常实用的工具函数,它能够帮你优雅地完成这些任务。本篇文章将从接口、参数、返回值、典型用法到进阶用法,深入剖析 os.walk 的方方面面,并给出大量代码示例,帮助你快速掌握它的使用。


一、什么是 os.walk

  • 定义
    os.walk(top, topdown=True, onerror=None, followlinks=False) 是 Python os 模块提供的一个生成器函数,用于递归遍历目录树。

  • 核心作用
    从指定的根目录 top 出发,按层级返回每个子目录及其文件列表,供用户在循环中依次处理。


二、函数签名与参数详解

os.walk(top, topdown=True, onerror=None, followlinks=False)
参数类型含义
topstr必填,指定要遍历的起始目录路径
topdownbool可选,默认 True:先返回 top 目录,再递归子目录;
False,则先递归子目录后再返回 top
onerrorcallable可选,遍历过程中若遇到 OSError(如权限错误)时,回调该函数并传入异常对象
followlinksbool可选,默认 False:遇到符号链接不进入;若设为 True,会跟随符号链接继续遍历

三、返回值说明

os.walk 会返回一个 生成器,在每次循环中返回一个三元组 (dirpath, dirnames, filenames)

  • dirpath:当前正在遍历的目录的完整路径(字符串)。
  • dirnames:当前目录下所有子目录名称列表(不含路径,只是名字)。
  • filenames:当前目录下所有非目录文件名称列表(不含路径)。

Tip:如果你在循环中修改 dirnames(增删或重排),会影响后续遍历的目录顺序或内容。


四、典型用法与示例

1. 遍历并打印所有文件

import osroot = '/path/to/project'
for dirpath, dirnames, filenames in os.walk(root):for fname in filenames:fullpath = os.path.join(dirpath, fname)print(fullpath)

示例输出

/path/to/project/main.py
/path/to/project/utils/helper.py
/path/to/project/data/sample1.txt
...

2. 按文件后缀搜索

import osdef find_files_with_ext(root, ext):matches = []for dirpath, _, filenames in os.walk(root):for fname in filenames:if fname.lower().endswith(ext):matches.append(os.path.join(dirpath, fname))return matches# 查找所有 .jpg 文件
jpg_list = find_files_with_ext('/path/to/images', '.jpg')
print(f"共找到 {len(jpg_list)} 张 JPG:")
for p in jpg_list:print("  ", p)

3. 批量重命名或移动文件

import ossrc_root = '/data/raw'
dst_root = '/data/processed'for dirpath, _, filenames in os.walk(src_root):rel_dir = os.path.relpath(dirpath, src_root)target_dir = os.path.join(dst_root, rel_dir)os.makedirs(target_dir, exist_ok=True)for fname in filenames:if fname.endswith('.txt'):src_file = os.path.join(dirpath, fname)dst_file = os.path.join(target_dir, fname)os.rename(src_file, dst_file)

五、进阶参数与高级用法

1. topdown=False:后序遍历

当你需要先处理最底层文件夹(例如删除空文件夹),再回到父目录时:

for dirpath, dirnames, filenames in os.walk(root, topdown=False):# 删除所有文件for fname in filenames:os.remove(os.path.join(dirpath, fname))# 如果目录空了,就删掉它if not os.listdir(dirpath):os.rmdir(dirpath)

2. onerror:捕获遍历异常

遇到无法访问的目录时,执行自定义回调,而不是直接抛错退出:

import osdef handle_error(err):print(f"无法访问:{err.filename},跳过该目录")for dp, dns, fns in os.walk(root, onerror=handle_error):# 正常处理...

3. followlinks=True:跟随符号链接

默认情况下,os.walk 不会进入符号链接指向的目录。若你需要遍历软链接目录,可以启用此功能(需防止循环引用):

for dp, dns, fns in os.walk(root, followlinks=True):...

六、性能与注意事项

  1. 内存占用
    os.walk 仅在迭代时加载当前目录内容,不会一次性把整个文件树读入内存,适合深度或海量文件遍历。

  2. 顺序可控

    • 默认 topdown=True,你可以在循环体内修改 dirnames(例如移除不想进入的子目录),从而动态剪枝。
    • topdown=False 适用于先处理子目录再处理父目录的场景。
  3. 避免符号链接循环
    如果项目中存在互相指向的软链接,开启 followlinks=True 可能导致无限递归。可结合 os.path.realpath 和记录已访问路径来规避。


七、小结

  • os.walk 是强大的目录树遍历工具,适用于搜索、统计、重命名、删除等批量文件操作。

  • 通过 topdownonerrorfollowlinks 等参数,你可以灵活地控制遍历顺序、异常处理和软链接跟随策略。

  • 典型用法包括:

    • 打印所有文件
    • 按后缀搜索
    • 批量重命名/移动
    • 删除空目录

相关文章:

  • HTML、XML、JSON 是什么?有什么区别?又是做什么的?
  • LVS-DR高可用-Keepalived
  • 中国头盔护具展在杭州举办合适
  • 虚拟机数据挂载映射
  • Chuanpai、Nihongo wa Muzukashii Desu、K-skip Permutation
  • 苍穹外卖 10 用户统计订单统计 销量排名统计
  • leetcode450.删除二叉搜索树中的节点:递归法利用有序性处理四种删除场景
  • 1 µs = 10⁻⁶ s
  • github.com/lib/pq 数据库链接完整示例方式
  • GitHub Copilot 使用手册与原理解析
  • Spring Tool Suite(STS)4国内下载与安装教程
  • 1、Pytorch介绍与安装
  • 数据中心双活架构解决方案
  • SOC-ESP32S3部分:18-串口
  • MySQL的基本架构
  • 13 接口自动化-框架封装之 csv 数据驱动封装和日志
  • 哈工大编译原理 | 7.运行时存储分配
  • 上传图片转成3D VR效果 / 用photo-sphere-viewer实现图片VR效果 / VR效果在项目中落地实践
  • JMeter 是什么
  • 基于照片环境信息的AI定位技术:从原理到实战的深度解析
  • 深圳建西站/温州网站建设
  • 惠济区建设局网站/线上引流的八种推广方式
  • java三大框架要学多久/win7优化大师
  • 网网站开发设计/网络营销策划的内容
  • 阿里云的网站建设好不好/推广策略怎么写
  • java网站开发岗位职责/宁波网站建设推广公司价格