当前位置: 首页 > news >正文

计算serise数据的唯一值数量

1. Series.unique()

  • 功能返回 Series 中所有唯一值的 数组(顺序按首次出现排列)。

  • 返回值类型numpy.ndarray(用户可能误认为是列表,但实际是 NumPy 数组)。

  • 对 NaN 的处理:包含 NaN(如果存在)。

import pandas as pds = pd.Series([1, 2, 2, 3, None])
print(s.unique())
# 输出:array([1, 2, 3, nan], dtype=object)

2. Series.nunique()

  • 功能
    统计 Series 中唯一值的 数量(默认不包含 NaN)

  • 返回值
    整数(int)。

  • 参数 dropna

    • 默认 dropna=True:不统计 NaN。

    • dropna=False:将 NaN 视为一个唯一值并统计。

s = pd.Series([1, 2, 2, 3, None])# 默认不统计 NaN
print(s.nunique())          # 输出:3# 统计 NaN
print(s.nunique(dropna=False))  # 输出:4

3. Series.nunique(dropna=False)

  • 功能
    统计 Series 中唯一值的数量,包含 NaN

  • 返回值
    整数(int)。

  • 说明
    是 Series.nunique() 方法的参数化调用形式,通过 dropna=False 强制包含 NaN 的计数。

对比:

import pandas as pds = pd.Series([1, 1, 2, None, None])# 唯一值列表(包含 NaN)
print(s.unique())                 # 输出:[1, 2, nan]# 默认统计唯一值数量(不包含 NaN)
print(s.nunique())                 # 输出:2# 统计唯一值数量(包含 NaN)
print(s.nunique(dropna=False))     # 输出:3

http://www.dtcms.com/a/139089.html

相关文章:

  • 【2-12】CRC循环冗余校验码
  • 从原理到实践:NFS复杂故障处理方法论
  • 【人工智能】大模型的Prompt工程:释放DeepSeek潜能的艺术与科学
  • 快速迭代收缩-阈值算法(FISTA)
  • Python学习笔记(五)(列表与元组)
  • vue3 element-plus el-time-picker控制只显示时 分,并且控制可选的开始结束时间
  • AOSP世界时间的更新
  • 基于多模态双路TCN-SE-YOLO的小目标检测
  • 三维领域的语义分割
  • 【深基18.例3】查找文献-图的储存与遍历
  • 无线uniapp调试设备
  • EthernetiP转modbusTCP网关在加氢催化中的应用
  • Flask(补充内容)配置SSL 证书 实现 HTTPS 服务
  • Flask(2): 在windows系统上部署项目2
  • 【C】初阶数据结构10 -- 希尔排序
  • 知识库Qanyting部署问题总结
  • 使用sealos部署kubernetes集群并实现集群管理
  • Idea连接远程云服务器上的MySQL,开放云服务器端口
  • Markdown 教程
  • Linux驱动开发-①regmap②IIO子系统
  • Spring Boot 项目中发布流式接口支持实时数据向客户端推送
  • 【KWDB创作者计划】_KwDB2.2.0深度实践:从存储引擎到物联网场景的多模数据库实战
  • XSS之同源、跨域、内容安全策略
  • C语言——数组
  • 【网络技术_域名解析DNS】一、DNS 基础剖析及其原理
  • [轻量化超分]CAMixerSR: Only Details Need More “Attention“
  • HTML5好看的水果蔬菜在线商城网站源码系列模板5
  • 有什么工具可以在家连接到公司内网?局域网址提供异地公网访问的那些常用方法
  • CentOS系统-超详细的Kubernetes集群搭建教程(kubernetes:1.28.2)
  • Rust生命周期、文件与IO