特征工程中平衡高频与低频数据的权重分配试错
思路:结合多尺度特征对齐、动态权重机制和领域知识嵌入:
一、多尺度特征对齐策略
1. 时间粒度映射技术
-
高频数据降采样:将分钟级tick数据聚合为15分钟/小时级特征,保留量价分布特征(如VWAP、成交量分位数)
def downsample_high_freq(data, freq='15T'):return data.groupby(pd.Grouper(freq=freq)).agg({'price': 'last','volume': 'sum','bid_ask_spread': 'mean'})
-
低频数据插值:对季度/年度宏观指标(如GDP、CPI)使用样条插值生成日频序列
from scipy.interpolate import CubicSpline def interpolate_low_freq(df, date_col, value_col):cs = CubicSpline(df[date_col], df[value_col])new_dates = pd.date_range(start=df[date_col].min(), end=df[date_col].max(), freq='D')return pd.DataFrame({date_col: new_dates, value_col: cs(new_dates)})
2. 跨尺度特征交互
构建双路径特征提取网络,分别处理高频(1min-1h)和低频(1d-1M)数