当前位置: 首页 > news >正文

招行数字金融挑战赛数据分析赛带赛题二

赛题描述:根据提供的脱敏资讯新闻数据,选手需要对提供的训练集进行特征工程,构建资讯分类模型,对与测试集进行准确的新闻分类。
最终得分:0.8120。十二点关榜没看到排名,估算100+?
训练集很小,只有八千条数据,痛苦了三天,调参加模型效果不升反降。

训练集只有三列:新闻ID,文字,标签,一共四类标签。
标签分布
根据文本列中的数字个数加入了文本长度特征,能够反映出文本的复杂性或信息量。

X_train['length'] = X_train['文本'].apply(lambda x: len(str(x).split()))
X_test['length'] = X_test['文本'].apply(lambda x: len(str(x).split()))

文本列使用TfidfVectorizer:将文本数据转换为 TF-IDF 特征。
length列使用StandardScaler:将其转换为均值为 0,标准差为 1 的数值范围。

preprocessor = ColumnTransformer(transformers=[('text_tfidf', TfidfVectorizer(), '文本'),('length_scaler', StandardScaler(), ['length'])],remainder='passthrough'
)

选择线性支持向量机作为分类器:

classifier = LinearSVC(class_weight='balanced', random_state=42, dual=False)

使用 GridSearchCV 来进行超参数调优。

param_grid = {'preprocessor__text_tfidf__ngram_range': [(1, 2)],'preprocessor__text_tfidf__max_features': [50000, 70000, 90000],'preprocessor__text_tfidf__min_df': [1, 2, 3],'preprocessor__text_tfidf__max_df': [0.85, 0.9, 0.95],'classifier__C': [0.5, 1.0, 2.0, 5.0, 8.0, 10.0],
}

ngram_range: 设置为 (1, 2),表示我们使用 1-gram 和 2-gram(单词和双词组合)来表示文本特征。

max_features: 控制 TfidfVectorizer 中考虑的最大特征数量。尝试不同的值可以帮助我们找到最佳的特征数量。

min_df 和 max_df: 这些参数控制了 TfidfVectorizer 在选择特征时的文档频率范围,有助于排除低频和高频的噪声词汇。

C: 正则化参数,控制模型的复杂度和对训练数据的拟合程度。

对模型进行了多次交叉验证,以选择最佳参数组合。

grid_search = GridSearchCV(pipeline, param_grid, cv=cv_strategy,scoring='f1_macro',n_jobs=-1,verbose=2)
best_model = grid_search.best_estimator_
predictions = best_model.predict(X_test)

小白第一次参加类似比赛,大佬轻喷。

相关文章:

  • 英语句型结构
  • 【Java项目脚手架系列】第六篇:Spring Boot + JPA项目脚手架
  • llama.cpp初识
  • c++STL-string的模拟实现
  • Python OpenCV性能优化与部署实战指南
  • wordpress自学笔记 第三节 独立站产品和类目的三种展示方式
  • RabbitMQ--进阶篇
  • AI Agent(9):企业应用场景
  • 【Bootstrap V4系列】学习入门教程之 组件-巨幕(Jumbotron)和列表组(List group)
  • Java中的JDK7和JDK8时间类详解
  • 数字电子技术基础(五十七)——边沿触发器
  • Qt 窗口部件(2)输入部件详解
  • Canvas基础篇:虚线操作setLineDash和lineDashOffset详解
  • 前端性能指标及优化策略——从加载、渲染和交互阶段分别解读详解并以Webpack+Vue项目为例进行解读
  • 空战数据链基础术语解析:从概念到实战应用的入门指南
  • 联合类型的逻辑或关系与类型保护
  • 分享一个可以用GPT打标的傻瓜式SD图片打标工具——辣椒炒肉图片打标助手
  • 第26节:卷积神经网络(CNN)-数据增强技术(PyTorch)
  • 网络安全设备配置与管理-实验5-p150虚拟防火墙配置
  • Agent杂货铺
  • 牛市早报|中美经贸高层会谈达成重要共识,取得实质性进展
  • 中国工程院院士、国医大师、现代中国针灸奠基人石学敏逝世
  • 富家罹盗与财富迷思:《西游记》与《蜃楼志》中的强盗案
  • 海航回应“男团粉丝为追星堵住机舱通道”:已紧急阻止
  • 让“五颜六色”面孔讲述上海故事,2025年上海城市推荐官开启选拔
  • 兵韬志略|美2026国防预算未达1万亿,但仍寻求“暗度陈仓”