当前位置: 首页 > news >正文

R语言学习--Day02--实战经验反馈

最近在做需要用R语言做数据清洗的项目,在网上看再多的技巧与语法,都不如在项目中实战学习的快,下面是我通过实战得来的经验。

判断Rstudio是否卡死

很多时候,我们在运行R语言代码时,即使只是运行框选的几行代码,也会运行很久。其实,除了观察控制台是否有>或者>闪烁,以及在终端用命令查看运行状态之外,还可以观察我们的右上角的运行内存,如果在运行的过程中,观察其变化区间,如果在100M或以上,就算是正常,如果变化很少或基本不动,那就要考虑是否卡死了。(有时候Rstudio卡死并不会有提醒你重启的弹窗)

warnings()

有时候,我们在运行代码的过程中会看到控制台弹出error或者warning,但代码仍然能继续运行;此时记得分辨其意思,不要盲目得忽视。有时候的确只是提示我们某些包的版本过低需要更新,或者是画图的代码有问题,但不影响实际使用;但是有时候的warning,比如我们调用连接语法right_join或left_join时,如果对于识别拼接的列名或变量没有做好预处理的话,很容易弹出warning,在控制台打印warnings()的话,会看到比如“16564 of 'x' 匹配了 16 of 'y'”的警告,这个一般是因为有过多重复的列名,需要提前做去重的预处理。

数据类型

不同于其他语言,在控制台打印数据类型时,我们往往能看到输出不止一个,代表其拥有很多数据特性。对应的,用于筛选的语法,就显得尤为重要。这不只是,会不会报错的问题,更是关乎于发现问题的方向。比如,如果我们使用了其他类型的语法,而不是单纯的语法使用方法的错误,有时报错会显示要筛选的列名或数据不在列表或数据框里,但你打印列名,却又能看到其在里面。而这往往就是我们使用了错误的语法,导致代码无法识别数据的结构,打不开数据,也就找不到对应的数据了。

当然,并不是说语法方法使用错误,就只会报错提示我们去改了。这也是一个需要重视的问题,其危害往往藏在我们看不见,又尤为重要的地方。很多时候我们语法使用不妥当,是不会报错的,相反,代码依旧会运行,但是你会发现结果跟我们想的不一样,这个时候可能就会把我们思考问题的方向带偏,去思考是不是数据本身有问题了。比如,只是单纯的根据时间筛选最早的值赋予base.cr,使用pull(value)和直接用mutate新建一个变量,看似前者更简洁,算力节省更多,实际上,却会因为其逻辑是遍历每个数据去筛选,而后者则只是在某一行直接读数据,每次处理的数据量不同,前者会让代码一直在跑,等待的时间很久。(特别的,如果在运行代码时,没有报错,Rstudio也没有卡死,但观察运行内存变化在一个小区间内反复横跳,这个时候要注意是否是因为筛选的语法选择错了)

相关文章:

  • 数据库故障排查指南:从理论到实践的深度解析
  • 透明代理IP、匿名代理IP与高匿代理IP的技术辨析与实战指南
  • AWS CloudTrail日志跟踪启用
  • 《隐私计算:数据安全与隐私保护的新希望》
  • 【RabbitMq】无法打开 RabbitMq 管理插件的问题
  • 全球首个投影机息屏显示专利授权:九天画芯重新定义设备交互与节能显示新范式
  • 运维日志管理全解析:从存储优化到合规审计
  • 国产大模型 “五强争霸”,决战 AGI
  • Python环境管理工具深度指南:pip、Poetry、uv、Conda
  • 数据结构:ArrayList简单实现与常见操作实例详解
  • 酒店旅游类数据采集API接口之携程数据获取地方美食品列表 获取地方美餐馆列表 景点评论
  • 【Python 内置函数】
  • 微服务如何实现服务的高可用
  • C++GO语言微服务之Dockerfile docker-compose②
  • 若依框架页面
  • TCP/IP-——C++编程详解
  • SAP修改多元化政策
  • C语言:51单片机实现数码管依次循环显示【1~F】课堂练习
  • C#中的dynamic与var:看似相似却迥然不同
  • element合并单元格合并表头合并列,指定合并某一列
  • 国务院办公厅印发《国务院2025年度立法工作计划》
  • 牛市早报|中方调整对美加征关税措施,五部门约谈外卖平台企业
  • 落实中美经贸高层会谈重要共识,中方调整对美加征关税措施
  • 中国巴西关于乌克兰危机的联合声明
  • 王毅谈中拉论坛十年成果
  • 线下哪些商家支持无理由退货?查询方法公布