当前位置: 首页 > news >正文

Shell脚本-cut工具

一、前言

在 Linux/Unix 系统中,cut 是一个非常实用的文本处理命令,用于从文件或标准输入中提取特定列的内容。它特别适用于处理结构化文本数据,例如 CSV 文件、日志文件、配置文件等。

无论是做数据分析、系统监控,还是编写自动化脚本,cut 都是一个不可或缺的工具。

本文将带你全面了解 cut 工具的使用方式,包括:

cut 的基本语法与常用参数
✅ 如何按字符、字节、字段进行提取
cut 在 Shell 脚本中的实战应用
✅ 与其他文本处理命令的联合使用
✅ 实际开发中的常见问题与优化建议

并通过完整的代码示例帮助你快速上手并熟练掌握 cut 的各种高级用法。

二、什么是 cut?

cut 是一个用于 切割文本列 的命令行工具,它可以按照指定的分隔符或固定位置提取数据。

✅ 典型用途包括:

场景示例
提取用户名从 /etc/passwd 提取用户列表
日志分析提取访问日志中的 IP 地址、请求路径
数据清洗从 CSV 文件中提取某几列数据
自动化脚本快速提取变量值、过滤冗余信息

三、cut 基础语法

cut [选项] 文件名

✅ 常用选项说明:

参数描述
-b按字节提取(byte-based)
-c按字符提取(character-based)
-f按字段提取(field-based),默认以制表符 \t 分隔
-d指定字段分隔符(delimiter)
--output-delimiter=STR设置输出时使用的分隔符
-s不输出没有分隔符的行(静默模式)

四、cut 使用示例

✅ 示例1:按字符提取(-c

echo "Hello World" | cut -c1-5

输出:

Hello

💡 -c1-5 表示提取第 1 到第 5 个字符。

✅ 示例2:按字段提取(-f + -d

假设有一个 CSV 文件 data.csv 内容如下:

name,age,city
Alice,28,Beijing
Bob,32,Shanghai
Charlie,25,Guangzhou

提取第二列(年龄):

cut -d',' -f2 data.csv

输出:

age
28
32
25

✅ 示例3:修改输出分隔符(--output-delimiter

cut -d',' -f1,3 data.csv --output-delimiter=' | '

输出:

name | city
Alice | Beijing
Bob | Shanghai
Charlie | Guangzhou

✅ 示例4:只提取有分隔符的行(-s

echo "This line has no delimiter" > test.txt
echo "name:age:city" >> test.txtcut -d':' -f1 -s test.txt

输出:

name

💡 只输出包含分隔符 : 的行。

五、cut 在 Shell 脚本中的应用

✅ 示例1:提取 IP 地址(结合 hostname

ip=$(hostname -I | cut -d' ' -f1)
echo "当前主机IP为:$ip"

✅ 示例2:解析环境变量配置文件

假设 config.env 内容如下:

DB_HOST=localhost
DB_PORT=3306
DB_USER=root

提取所有键名:

grep '=' config.env | cut -d'=' -f1

输出:

DB_HOST
DB_PORT
DB_USER

✅ 示例3:获取 CPU 型号名称(结合 lscpu

lscpu | grep 'Model name' | cut -d':' -f2 | sed 's/^ *//;s/ *$//'

输出类似:

Intel(R) Core(TM) i7-9750H CPU @ 2.60GHz

六、cut 与其他命令的配合使用

✅ 示例1:提取日志中的 URL 并排序去重(cut + sort + uniq

cat access.log | cut -d'"' -f2 | cut -d' ' -f2 | sort | uniq

输出访问过的唯一 URL。

✅ 示例2:统计访问次数最多的 IP(cut + grep + awk

grep 'GET /index.html' access.log | cut -d' ' -f1 | sort | uniq -c | sort -nr | head -n 10

输出访问 /index.html 最频繁的前 10 个 IP。

七、cut 使用技巧总结

技巧说明
✅ 使用 -f 提取字段适用于 CSV、TSV 等格式的数据
✅ 使用 -d 自定义分隔符支持任意字符作为分隔符
✅ 使用 -c 提取固定位置字符适用于格式固定的文本
✅ 使用 -b 提取字节范围处理非 UTF-8 编码文件时有用
✅ 使用 --output-delimiter 修改输出格式控制输出样式更灵活
✅ 结合 grep 过滤后再提取减少无效数据干扰
✅ 与 sortuniqawk 联合使用实现复杂文本处理逻辑

八、cut 实战案例汇总

✅ 案例1:从 /etc/passwd 提取用户名

cut -d':' -f1 /etc/passwd

输出系统中所有用户名。

✅ 案例2:提取 HTTP 请求状态码(access.log)

cut -d'"' -f3 access.log | cut -d' ' -f2

提取每次请求的状态码(如 200、404)。

✅ 案例3:提取邮件地址中的域名部分

echo "user@example.com" | cut -d'@' -f2

输出:

example.com

九、常见问题与解决方法

问题原因解决方案
无法提取正确字段分隔符设置错误检查 -d 参数是否匹配实际分隔符
输出为空字段索引超出范围使用 -f1-3 或检查字段是否存在
多个空格导致误判分隔符不统一使用 tr 或 awk 预处理
输出中文乱码编码不一致使用 iconv 转换编码或检查终端设置
cut 不支持正则表达式功能有限使用 awk 或 perl 替代

十、总结对比表:cut 常用参数一览

参数功能
-b按字节提取
-c按字符提取
-f按字段提取
-d自定义字段分隔符
--output-delimiter设置输出分隔符
-s静默模式,仅输出有效行

十一、结语

感谢您的阅读!如果你有任何疑问或想要分享的经验,请在评论区留言交流!

http://www.dtcms.com/a/289490.html

相关文章:

  • 从零到一MCP快速入门实战【1】
  • 疯狂星期四第13天运营日报
  • Java拓扑排序:2115 从给定原材料中找到所有可以做出的菜
  • Linux 基本指令详解
  • Self-Consistency:跨学科一致性的理论与AI推理的可靠性基石
  • WebDriver 对象中的方法
  • C++STL系列之list
  • Vue DIY 内容文本超出组件
  • Numpy库,矩阵形状与维度操作
  • 矩阵算法题
  • ZYNQ创新实践:免IIC驱动直控MCP4661T数字电位器
  • ollama基本配置
  • 仙盟数据库应用-外贸标签打印系统 前端数据库-V8--毕业论文-—-—仙盟创梦IDE
  • 数据库操作丨C++ 操作 数据库——SQLServer 篇
  • 数据库技术总结
  • 激光雷达和相机在线标定
  • 试用SAP BTP 06:AI服务-Data Attribute Recommendation
  • Java行为型模式---解释器模式
  • 30天打牢数模基础-XgBoost讲解
  • 第四章第一节 OLED 调试工具
  • 【LeetCode 热题 100】200. 岛屿数量——DFS
  • 20250720-3-Kubernetes 调度-资源限制对Pod调度的影响(2)_笔记
  • 隧道无线调频广播与“群载波”全频插播技术在张石高速黑石岭隧道中的应用
  • 数据结构第二章:线性表之顺序表
  • Kubernetes (K8S)知识详解
  • 【k8s集群管理平台】k8s运维管理的新玩法,让运维电脑随时不离身的现状成为过去
  • 【论文研读】SlowFast Networks for Video Recognition
  • 2024年全国青少年信息素养大赛Scratch算法创意实践挑战赛 小高组 初赛 真题
  • http基础一
  • HarmonyOS 启动提速秘籍:懒加载全链路实战解析