当前位置: 首页 > news >正文

R语言 读取tsv的三种方法 ,带有注释的tsv文件

下面给出 3 种在 R 里“跳过注释行(以 ## 开头)并读取真正列名在第 1 行”的通用做法,任选其一即可。
示例文件假设叫 demo.tsv,放在工作目录下,字段分隔符为 tab(\t)。


方案 1:readr::read_tsv + skip
(最简洁,tidyverse 用户首选)

library(readr)df <- read_tsv("demo.tsv",skip = 6,            # 前 6 行全是注释,直接跳过locale = locale(encoding = "UTF-8")  # 如有中文可改 GB18030
)head(df)

方案 2:data.table::fread + autostart
(速度最快,自动识别 tab 分隔)

library(data.table)df <- fread("demo.tsv",autostart = 7L,      # fread 会自己从第 7 行开始找列名sep = "\t"
)head(df)

方案 3:base::read.table + 文本预处理
(不依赖任何外部包,纯 base R)

## 1. 先把注释行扔掉
con <- file("demo.tsv", open = "rt")
clean <- grep("^##", readLines(con), invert = TRUE, value = TRUE)
close(con)## 2. 用 textConnection 把干净文本喂给 read.table
df <- read.table(text = clean,header = TRUE,sep = "\t",stringsAsFactors = FALSE,fileEncoding = "UTF-8"
)head(df)

补充说明

  1. 如果注释行数不固定,可用 grep("^##", readLines()) 动态计算要跳过的行数。
  2. 文件若用 CRLF(Windows)换行,以上三种方法均能自动识别,无需额外处理。
  3. 读进来后 colnames(df) 就是
    “Transcription factor”“Synonyms”“Official Full Name”… 可直接使用。
http://www.dtcms.com/a/465231.html

相关文章:

  • 淘宝数据网站开发查邮箱注册的网站
  • H200服务器维修服务体系构建:捷智算的全链条保障方案
  • Windows安装RabbitMQ保姆级教程
  • 申请网站服务器网络营销的特点和作用
  • Java-Spring入门指南(二十二)SSM整合前置基础
  • vim 中设置高亮
  • 记一次病毒分析
  • 岳阳网站开发收费亚马逊网站
  • JPA读取数据库离谱问题-No property ‘selectClassByName‘ found-Not a managed type
  • C++ 类与对象(上)笔记(整理与补充)
  • 基于Python 实现企业搜索系统(信息检索)
  • 学习爬虫第四天:多任务爬虫
  • 专注大连网站建设长沙网站设计咨询电话
  • 网站备案编号查询做网站的语言版本
  • 预训练基础模型简介
  • 【笔记】WPF中如何的动态设置DataGridTextColumn是否显示
  • 告别手动复制,API助您完成电商数据获取数据分析店铺搬家
  • 软件工程的核心原理与实践
  • LeetCode 394. 字符串解码(Decode String)
  • Spring Bean耗时分析工具
  • 济南可信网站网站开发命名规范
  • 应用案例丨3D工业相机如何实现「焊接全工序守护」
  • 网站接广告网站可以叫做系统吗
  • 应用层协议之Telnet协议
  • 科技赋能成长,小康AI家庭医生守护童真
  • 芯谷科技--D7005高效高压降压型DC-DC转换器
  • 玻尿酸:从天然分子到科技美学的全面解析
  • # 3.1.8<3.2.0<3.3.1,Apache DolphinScheduler集群升级避坑指南
  • 微算法科技(NASDAQ:MLGO)基于任务迁移的弹性框架重塑动态扩缩容,赋能边缘智能计算
  • 卡盟网站怎么做图片wordpress换网址插件