当前位置: 首页 > news >正文

【Pandas】pandas DataFrame ffill

Pandas2.2 DataFrame

Missing data handling

方法描述
DataFrame.fillna([value, method, axis, …])用于填充 DataFrame 中的缺失值(NaN)
DataFrame.backfill(*[, axis, inplace, …])用于**使用后向填充(即“下一个有效观测值”)来填补缺失值(NaN)**的方法
DataFrame.bfill(*[, axis, inplace, limit, …])用于**使用后向填充(即“下一个有效观测值”)来填补缺失值(NaN)**的方法
DataFrame.dropna(*[, axis, how, thresh, …])用于删除包含缺失值(NaN)的行或列的方法
DataFrame.ffill(*[, axis, inplace, limit, …])用于**使用前向填充(即“前一个有效观测值”)来填补缺失值(NaN)**的方法

pandas.DataFrame.ffill()

pandas.DataFrame.ffill() 是一个用于**使用前向填充(即“前一个有效观测值”)来填补缺失值(NaN)**的方法。它等价于 fillna(method='ffill'),常用于时间序列、传感器数据或需要保持趋势一致性的场景。


📌 方法签名
DataFrame.ffill(*, axis=None, inplace=False, limit=None, limit_area=None, downcast=<no_default>)

🔧 参数说明
参数类型说明
axis{0/'index', 1/'columns'},默认为 None指定填充方向:
- 0'index':按行方向(向下)填充
- 1'columns':按列方向(向右)填充
inplacebool,默认 False是否在原对象上修改
limitint,可选最多连续填充的 NaN 数量;若未指定,则全部填充
limit_area'inside''outside',可选控制填充区域:
- 'inside':仅填充被非空包围的 NaN 区域
- 'outside':填充边缘的 NaN
downcastdict'infer',可选控制是否尝试将结果转换为更小的数据类型(如 float64 → float32)

✅ 返回值
  • 返回一个新的 DataFrame,其中的 NaN 值被前向填充;
  • 如果 inplace=True,则返回 None,原始数据被修改。

🧪 示例代码及结果
示例 1:基本用法 - 行方向前向填充(axis=0)
import pandas as pd
import numpy as npdf = pd.DataFrame({'A': [1, np.nan, 3, np.nan, 5],'B': [np.nan, 2, np.nan, 4, np.nan]
})print("Original DataFrame:")
print(df)# 使用 ffill 按行方向填充
df_ffilled = df.ffill()
print("\nAfter ffill():")
print(df_ffilled)
输出结果:
Original DataFrame:A    B
0  1.0  NaN
1  NaN  2.0
2  3.0  NaN
3  NaN  4.0
4  5.0  NaNAfter ffill():A    B
0  1.0  NaN
1  1.0  2.0
2  3.0  2.0
3  3.0  4.0
4  5.0  4.0

注意第一行 B 列仍为 NaN,因为前面没有有效值可用。


示例 2:限制最大填充数量(limit=1)
# 设置最多填充 1 个连续 NaN
df_limited = df.ffill(limit=1)
print("\nAfter ffill(limit=1):")
print(df_limited)
输出结果:
After ffill(limit=1):A    B
0  1.0  NaN
1  1.0  2.0
2  NaN  2.0
3  NaN  4.0
4  NaN  4.0

可见每列最多只向前填充一个 NaN。


示例 3:按列方向填充(axis=1)
# 创建按列方向有 NaN 的 DataFrame
df_col = pd.DataFrame({'X': [1, 2, 3],'Y': [np.nan, 5, 6],'Z': [7, np.nan, 9]
})print("Original Column-wise DataFrame:")
print(df_col)# 按列方向填充
df_col_ffilled = df_col.ffill(axis=1)
print("\nAfter ffill(axis=1):")
print(df_col_ffilled)
输出结果:
Original Column-wise DataFrame:X    Y    Z
0  1  NaN  7.0
1  2  5.0  NaN
2  3  6.0  9.0After ffill(axis=1):X    Y    Z
0  1  1.0  7.0
1  2  5.0  5.0
2  3  6.0  6.0

第二列 Y 被前一列 X 填充,第三列 Z 被第二列填充。


示例 4:使用 limit_area='inside' 仅填充内部 NaN
# 构造包含边界和内部 NaN 的 DataFrame
df_limit_area = pd.DataFrame({'A': [np.nan, 2, np.nan, 4, np.nan],  # 边缘 NaN'B': [1, np.nan, 3, np.nan, 5]        # 内部 NaN
})print("Original DataFrame with edge and internal NaNs:")
print(df_limit_area)# 只填充被非空包围的 NaN(不填充边缘)
df_inside = df_limit_area.ffill(limit_area='inside')
print("\nAfter ffill(limit_area='inside'):")
print(df_inside)
输出结果:
Original DataFrame with edge and internal NaNs:A    B
0  NaN  1.0
1  2.0  NaN
2  NaN  3.0
3  4.0  NaN
4  NaN  5.0After ffill(limit_area='inside'):A    B
0  NaN  1.0
1  2.0  1.0
2  NaN  3.0
3  4.0  3.0
4  NaN  5.0

只填充了中间的 NaN,首尾的未填充。


示例 5:使用 limit_area='outside' 仅填充边缘 NaN
# 仅填充边缘 NaN
df_outside = df_limit_area.ffill(limit_area='outside')
print("\nAfter ffill(limit_area='outside'):")
print(df_outside)
输出结果:
After ffill(limit_area='outside'):A    B
0  NaN  1.0
1  2.0  NaN
2  2.0  3.0
3  4.0  NaN
4  4.0  5.0

此时只填充了最前或最后的 NaN,中间的未填充。


示例 6:原地修改(inplace=True)
# 原地修改
df.ffill(inplace=True)
print("\nIn-place ffill (modified original):")
print(df)
输出结果(基于示例 1 的数据):
In-place ffill (modified original):A    B
0  1.0  NaN
1  1.0  2.0
2  3.0  2.0
3  3.0  4.0
4  5.0  4.0

🧠 应用场景
  • 时间序列数据处理:填补缺失的时间点数据;
  • 传感器或日志数据清洗:使用前一个时刻的值进行插值;
  • 数据预处理:准备模型输入前去除 NaN;
  • 控制填充范围:通过 limit_area 精确控制填充哪些位置;
  • 链式调用中清理数据:如 df.dropna().ffill()

⚠️ 注意事项
  • 默认按行方向(axis=0)填充;
  • 支持 limit_area,这是 fillna(method='ffill') 所没有的功能;
  • 若无前一个有效值,则无法填充;
  • limit 控制连续填充的最大数量;
  • 不会自动排序索引,建议先排序以获得预期效果;
  • 推荐结合 fillna()bfill() 等方法一起使用以满足不同需求;
  • 仅对 NaN 生效,不会处理 None 或其他空值。

✅ 总结对比
方法是否支持 limit_area是否推荐使用
ffill()✅ 是✅ 推荐
pad()✅ 是(与 ffill() 完全相同)✅ 推荐
fillna(method='ffill')✅ 是(通过 method✅ 推荐(更通用)

你可以根据具体需求选择最适合的参数组合来清理缺失值。

相关文章:

  • (七) 深度学习进阶:现代卷积神经网络技术解析与应用实践
  • 突破原生整数范围限制:C++高精度乘法算法模板的实现与优化
  • 启动已有小程序项目
  • 论文阅读笔记——Muffin: Testing Deep Learning Libraries via Neural Architecture Fuzzing
  • C#最佳实践:为何优先使用as或is而非强制转换
  • DeFi模式:去中心化金融架构与流动性池设计
  • Android Kotlin 协程详解
  • Android 开发中配置 USB 配件模式(Accessory Mode) 配件过滤器的配置
  • Map相关知识
  • 循环语句之for
  • 【系统架构设计师-2025上半年真题】综合知识-参考答案及部分详解(回忆版)
  • 数据挖掘是什么?数据挖掘技术有哪些?
  • 2025.06.09【读书笔记】|PromptBio:让生信分析更简单的AI平台
  • 一款用于react-native监听app[AppState]前后台的自定义Hooks开源插件
  • python读取SQLite表个并生成pdf文件
  • 芯科科技Tech Talks技术培训重磅回归:赋能物联网创新,共筑智能互联未来
  • 查找日志文件中​​最后一次出现某个关键词的上下 20 行​​
  • 河北对口计算机高考C#笔记(2026高考适用)---持续更新~~~~
  • [KCTF]CORE CrackMe v2.0
  • C# 表达式和运算符(求值顺序)
  • 购物网站建设公司/40个免费靠谱网站
  • 越南的网站建设/短视频入口seo
  • 启明星网站建设/外贸网络推广营销
  • 宣传网站建设方案模板/百度推广一天费用200
  • 网站左侧漂浮导航/互联网营销模式
  • 舟山网站建设推荐/整合营销传播的定义