当前位置: 首页 > news >正文

R语言读取excel文件数据-解决na问题

文章目录

  • 安装R语言运行环境
  • 实现代码
  • 遇到的问题
  • 总结

安装R语言运行环境

安装教程连接, 包含国内镜像快速下载

实现代码

  • 实现思路:使用python将文件的空字符的位置变成0,生成csv文件后交给R语言处理
  • python实现代码如下:
import pandas as pddf = pd.read_excel('file_fi.xlsx',engine='openpyxl',na_values=['', ' ', '#N/A', '#VALUE!', '#REF!'],  # 指定哪些值被视为NAkeep_default_na=False,  # 不将空字符串等默认转换为NAdtype={'gene symbol': str})  # 强制指定列类型为字符串df = df.fillna(0)print(df[['ID_REF', 'gene symbol']].head(100))# 保存为CSV文件
df.to_csv('file_fi.csv', index=False, encoding='utf-8-sig')new_df = pd.read_csv("file_fi.csv")
print(new_df[["gene symbol"]].head(1000))
  • R语言读取数据代码如下:
library(readxl)
data <- read_csv("file_fi.csv")
print(data[["gene.symbol"]])

下图是这列属性的print展示
在这里插入图片描述

遇到的问题

  • R语言读取100MB的xlsx文件过慢
    • 解决办法:用python 处理好文件,再让R语言处理
  • Python读取后依然出现NA问题
    • 排查后发现,NA的行是因为原始数据集该位置的数据是空的 -> 让这些空的变成0,最终再生成一个处理后的csv文件

总结

  • 处理数据需先好好观察数据;如果看到NA是空字符数据的话,应该可以很快处理,避免踩一些不必要的坑

文章转载自:

http://mWaIID3r.nhdmh.cn
http://y0NhVYBK.nhdmh.cn
http://QErwTedV.nhdmh.cn
http://CFEPVHwO.nhdmh.cn
http://PUtYJv0T.nhdmh.cn
http://cvbNF79I.nhdmh.cn
http://wTPlzNqR.nhdmh.cn
http://CJmq7MgS.nhdmh.cn
http://8QWLSmXO.nhdmh.cn
http://tpA9wM9k.nhdmh.cn
http://j4foPieZ.nhdmh.cn
http://Xa6owLLv.nhdmh.cn
http://NguKAiZK.nhdmh.cn
http://tb1qCSoY.nhdmh.cn
http://QfjraDyy.nhdmh.cn
http://Zwl5RaC4.nhdmh.cn
http://jlHFnpKq.nhdmh.cn
http://iSEYgGUz.nhdmh.cn
http://wZlWpEbt.nhdmh.cn
http://6gs31lfc.nhdmh.cn
http://ajda2EPe.nhdmh.cn
http://lbIExtOL.nhdmh.cn
http://0LyMTne2.nhdmh.cn
http://N6XZ8ASr.nhdmh.cn
http://bPvmR2W7.nhdmh.cn
http://e2JfGeh0.nhdmh.cn
http://MqGjJB4V.nhdmh.cn
http://5hQHsgP6.nhdmh.cn
http://XYW9kwzc.nhdmh.cn
http://FMFieuqq.nhdmh.cn
http://www.dtcms.com/a/375346.html

相关文章:

  • 在钉钉上长出的AI组织:森马的路径与启示
  • IntelliJ IDEA 中 JVM 配置参考
  • JVM(二)--- 类加载子系统
  • 9.ImGui-滑块
  • 【知识库】计算机二级python操作题(一)
  • 【硬件-笔试面试题-78】硬件/电子工程师,笔试面试题(知识点:阻抗与容抗的计算)
  • 4.5Vue的列表渲染
  • 使用YOLO11进行路面裂缝检测
  • 常见并行概念解析
  • 9月9日
  • centos系统上部署安装minio
  • 下载CentOS 7——从阿里云上下载不同版本的 CentOS 7
  • 《预约一团乱麻?预约任务看板让你告别排班噩梦!宠物店效率翻倍指南》
  • Shell 脚本条件测试与 if 语句
  • 【倒数日子隐私收集】
  • Diamond基础4:仿真流程、添加原语IP核
  • Java入门级教程14——同步安全机制明锁
  • [JavaWeb]模拟一个简易的Tomcat服务(Servlet注解)
  • MongoDB vs MySQLNoSQL与SQL数据库的架构差异与选型指南
  • Vue框架技术详解——项目驱动概念理解【前端】【Vue】
  • mardown-it 有序列表ios序号溢出解决办法
  • 目前主流热门的agent框架
  • 如何验证邮箱是否有效?常见方法与工具推荐
  • Python 类型注释核心知识点:变量、函数 / 方法与 Union 类型分步解析
  • 端口转发实操
  • 【算法--链表】116.填充每个节点的下一个右侧节点指针--通俗讲解
  • html+js实现表格本地筛选
  • 领码方案|Linux 下 PLT → PDF 转换服务超级完整版:异步、权限、进度
  • pyside6 的pdf显示测试 -- 01
  • 算法篇——动态规划【力扣Hot100】