scikit-learn 包
文章目录
- scikit-learn 包
- 核心功能模块
- 案例
- 其他用法
- **常用功能详解**
- **(1) 分类任务示例(SVM)**
- **(2) 回归任务示例(线性回归)**
- **(3) 聚类任务示例(K-Means)**
- **(4) 特征工程(PCA降维)**
- **高级技巧**
- **(1) 交叉验证与超参数调优**
- **(2) 流水线(Pipeline)**
- **(3) 自定义评估指标**
- 方法介绍
scikit-learn 包
scikit-learn (sklearn) 是 Python 中最流行的机器学习库之一,提供了简单高效的工具集用于数据挖掘和数据分析。在反洗钱项目中,它主要用于构建风险识别模型和可疑交易检测系统。以下是其核心特点和应用:
核心功能模块
- 数据预处理(reprocessing)
- 特征缩放( StandardScaler 、 MinMaxScaler )
- 缺失值处理( SimpleImputer )
- 类别变量编码( OneHotEncoder 、 LabelEncoder )
- 在反洗钱场景中用于标准化交易金额、客户特征等数据
- 监督学习算法
- 分类算法:逻辑回归、随机森林、SVM等,用于识别可疑交易
- 回归算法:预测交易风险评分
- 聚类算法:发现异常交易模式
- 模型评估与优化
- 交叉验证( cross_val_score )
- 网格搜索( GridSearchCV )调参
- 混淆矩阵、ROC曲线等评估指标
优势
- 易于使用 :统一的API接口,适合快速开发
- 高效集成 :可与NumPy、Pandas数据处理无缝衔接
- 丰富文档 :完善的教程和案例,降低反洗钱模型开发门槛
- 社区活跃 :持续更新维护,支持最新算法
注意事项
- 需配合 pandas 进行数据清洗
- 大规模交易数据可能需要结合 scipy 优化
- 模型解释性需额外使用 SHAP 或 LIME 工具增强,满足监管要求
案例
以反洗钱业务为背景,使用 scikit-learn 开发风险识别模型。
from sklearn.datasets import load_iris
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_splitfrom sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report# 加载数据
iris = load_iris()
X, y = iris.data, iris.target # 特征矩阵 (n_samples, n_features) 和标签# 数据预处理
# 标准化特征
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X) # 将输入特征矩阵 X 转换为均值为0、标准差为1的标准化数据
'''标准化特征:标准化特征是指将特征矩阵中的每个特征进行标准化处理,使它们的均值为0、标准差为1。标准化特征的目的是消除特征之间的量纲差异,使不同特征对模型的影响相同。标准化特征的计算方法是:将特征值减去均值,再除以标准差。标准化特征的计算过程如下:1. 计算特征的均值:mean = sum(x) / n2. 计算特征的标准差:std = sqrt(sum((x - mean)^2) / n)3. 标准化特征:x_scaled = (x - mean) / std两步操作合一 : fit_transform 等价于先调用 scaler.fit(X) 再调用 scaler.transform(X)- fit(X) :计算训练数据的均值和标准差等统计参数- transform(X) :使用这些参数将数据进行标准化转换
'''# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X_scaled,y,test_size=0.2,random_state=42)
# test_size=0.2 20% 为测试数据 80% 为训练数据
# random_state=42 随机种子# 训练随机森林模型
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train) # 训练y_pred = model.predict(X_test)
print("准确率:", accuracy_score(y_test, y_pred))
print("详细报告:\n", classification_report(y_test, y_pred))
Demo 进阶
# -*- coding: utf-8 -*-
"""
反洗钱交易检测Demo
功能:使用随机森林模型识别可疑交易
数据特征:交易金额、频率、地区风险等级等
"""
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import roc_auc_score, classification_report# 1. 准备反洗钱样本数据(实际项目中从数据库读取)
def prepare_aml_data():"""生成模拟反洗钱交易数据"""# 正常交易(90%)和可疑交易(10%)np.random.seed(42)n_samples = 10000# 特征:交易金额、频率、地区风险等级、账户年龄(天)X = pd.DataFrame({'amount': np.random.normal(5000, 3000, n_samples),'transaction_count': np.random.randint(1, 20, n_samples),'region_risk': np.random.randint(1, 5, n_samples),'account_age': np.random.randint(30, 365, n_samples)})# 标签:1=可疑交易,0=正常交易y = np.where((X['amount'] > 10000) & (X['region_risk'] > 3) |(X['transaction_count'] > 15) & (X['account_age'] < 90),1, 0)return X, y# 2. 数据预处理与模型训练
def train_aml_model():"""训练反洗钱交易检测模型"""# 获取数据X, y = prepare_aml_data()# 拆分训练集和测试集X_train, X_test, y_train, y_test = train_test_split(X,y,test_size=0.3,random_state=42,stratify=y)# 使用 stratify(保持类别分布一致)'''当设置 stratify=y 时,函数会:1. 分析 y 中各类别的比例2. 在拆分过程中,按照相同比例从每个类别中抽取样本到训练集和测试集3. 最终确保训练集和测试集的类别分布与原始数据集高度一致反洗钱项目中的重要性1. 解决数据不平衡问题 :反洗钱数据通常存在严重的类别不平衡(正常交易占99%以上,可疑交易不足1%)2. 确保模型泛化能力 :如果不使用 stratify ,随机拆分可能导致测试集中几乎没有可疑交易样本,无法准确评估模型性能3. 符合监管要求 :保证模型在稀有但关键的可疑交易类别上有足够的学习样本,避免模型对这类交易的漏检'''# 特征标准化(修复原代码中的拼写错误和语法问题)scaler = StandardScaler() # 修正:scalar -> scaler# 对训练集进行拟合和转换X_train_scaled = scaler.fit_transform(X_train) # 修正:添加括号和参数# 对测试集进行转换X_test_scaled = scaler.transform(X_test)'''两者区别1. fit_transform :用于训练数据,计算并应用标准化参数(均值和标准差),并返回标准化后的训练数据2. transform :用于测试数据,使用之前计算的标准化参数(均值和标准差),并返回标准化后的测试数据作用:1.避免数据泄露: 确保测试集的数据不会影响模型训练过程中的参数估计2.保持一致性 :训练集和测试集使用相同的转换标准,确保模型评估的公平性3.模拟真实场景 :在实际反洗钱应用中,模型部署后只能使用训练时确定的参数来处理新交易数据这种处理方式确保了模型评估的客观性,也是机器学习流程中的最佳实践。'''# 训练随机森林模型(反洗钱项目常用算法)model = RandomForestClassifier(n_estimators=100, # 树的数量max_depth=8, # 树深度,防止过拟合class_weight='balanced', # 处理不平衡数据random_state=42)model.fit(X_train_scaled, y_train)# 模型评估y_pred_proba = model.predict_proba(X_test_scaled)[:, 1]y_pred = model.predict(X_test_scaled)print(f"模型AUC值: {roc_auc_score(y_test, y_pred_proba):.4f}")print("分类报告:\n", classification_report(y_test, y_pred))return model, scaler# 3. 预测新交易风险
def predict_risk(model, scaler, new_transaction):"""预测新交易的风险等级:param model: 训练好的模型:param scaler: 特征缩放器:param new_transaction: 新交易数据(DataFrame):return: 风险概率和预测标签"""transaction_scaled = scaler.transform(new_transaction)risk_prob = model.predict_proba(transaction_scaled)[0, 1]risk_label = 1 if risk_prob > 0.7 else 0 # 风险阈值设为0.7return risk_prob, risk_label# 执行Demo
if __name__ == "__main__":# 训练模型aml_model, aml_scaler = train_aml_model()# 模拟新交易检测new_trans = pd.DataFrame({'amount': [15000, 3000],'transaction_count': [18, 5],'region_risk': [4, 2],'account_age': [60, 200]})for i, trans in new_trans.iterrows():prob, label = predict_risk(aml_model, aml_scaler, trans.to_frame().T)print(f"交易{i+1}: 风险概率={prob:.4f}, 风险标签={label} (1=可疑, 0=正常)")
模型保存
import joblib# 保存模型
joblib.dump(aml_model, 'aml_model.pkl')# 保存特征缩放器
joblib.dump(aml_scaler, 'aml_scaler.pkl')
# 加载模型
aml_model = joblib.load('aml_model.pkl')
其他用法
常用功能详解
(1) 分类任务示例(SVM)
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrixsvm = SVC(kernel='rbf', C=1.0)
svm.fit(X_train, y_train)
print("SVM 准确率:", svm.score(X_test, y_test))
print("混淆矩阵:\n", confusion_matrix(y_test, svm.predict(X_test)))
(2) 回归任务示例(线性回归)
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_errorX, y = [[1], [2], [3]], [1, 2, 3] # 简单数据
model = LinearRegression()
model.fit(X, y)
print("斜率:", model.coef_, "截距:", model.intercept_)
print("MSE:", mean_squared_error(y, model.predict(X)))
(3) 聚类任务示例(K-Means)
from sklearn.cluster import KMeanskmeans = KMeans(n_clusters=3, random_state=42)
kmeans.fit(X_scaled)
print("聚类标签:", kmeans.labels_)
(4) 特征工程(PCA降维)
from sklearn.decomposition import PCApca = PCA(n_components=2)
X_pca = pca.fit_transform(X_scaled)
print("降维后方差比例:", pca.explained_variance_ratio_)
高级技巧
(1) 交叉验证与超参数调优
from sklearn.model_selection import GridSearchCVparams = {'n_estimators': [50, 100, 200], 'max_depth': [None, 5, 10]}
grid = GridSearchCV(RandomForestClassifier(), params, cv=5)
grid.fit(X_train, y_train)
print("最佳参数:", grid.best_params_)
(2) 流水线(Pipeline)
from sklearn.pipeline import Pipelinepipe = Pipeline([('scaler', StandardScaler()),('classifier', RandomForestClassifier())
])
pipe.fit(X_train, y_train)
(3) 自定义评估指标
from sklearn.metrics import make_scorerdef custom_metric(y_true, y_pred):return sum(y_true == y_pred) / len(y_true)scorer = make_scorer(custom_metric)
print("自定义得分:", scorer(model, X_test, y_test))
方法介绍
from sklearn.metrics import classification_report, roc_auc_score, precision_recall_curve, roc_curve, auc, recall_score, f1_score, log_loss, accuracy_score,precision_score'''
1. classification_report
生成详细的分类评估报告,包含每个类别的精确率、召回率、F1分数和支持度。在反洗钱项目中,用于全面展示模型对正常交易(类别0)和可疑交易(类别1)的识别效果。2. roc_auc_score
计算ROC曲线下的面积(AUC值),范围在0-1之间。值越接近1,模型区分正常交易和可疑交易的能力越强。反洗钱场景中,AUC是评估模型整体性能的关键指标。3. precision_recall_curve
绘制精确率-召回率曲线,展示不同阈值下模型的精确率和召回率之间的权衡关系。在反洗钱项目中,帮助确定最优阈值,平衡漏报(低召回)和误报(低精确)风险。4. roc_curve
绘制受试者工作特征曲线(ROC曲线),展示不同阈值下模型的真阳性率(召回率)和假阳性率之间的关系。用于评估模型在不同阈值下的表现。5. auc
计算任意曲线下的面积,常与 roc_curve 或 precision_recall_curve 结合使用,量化曲线所代表的模型性能。6. recall_score
计算召回率(真阳性率):实际可疑交易中被正确识别的比例。反洗钱项目中,高召回率至关重要,可减少漏报风险,符合监管要求。7. f1_score
计算F1分数:精确率和召回率的调和平均数。综合评估模型性能,尤其适用于类别不平衡的反洗钱数据(正常交易远多于可疑交易)。8. log_loss
计算对数损失(交叉熵损失):衡量模型概率预测与实际标签的差异。值越小,模型预测越准确,适用于评估反洗钱模型的概率输出质量。9. accuracy_score
计算准确率:正确预测的样本数占总样本数的比例。但在反洗钱等类别不平衡场景中,准确率可能会误导(如99%正常交易的数据集,即使全部预测为正常也能达到99%准确率)。10. precision_score
计算精确率(阳性预测值):预测为可疑的交易中实际为可疑的比例。反洗钱项目中,高精确率可减少误报,降低人工审核成本。
'''
from sklearn.linear_model import LogisticRegression
'''
LogisticRegression
1. 逻辑回归模型,用于二分类问题(正常交易与可疑交易)。与随机森林等模型不同,逻辑回归模型的解释性更强,可用于特征工程和模型解释。
2. 概率预测 :通过 predict_proba 方法输出交易为可疑的概率值
3. 特征重要性分析 :通过 coef_ 属性查看各特征对模型决策的影响程度
'''