当前位置: 首页 > news >正文

机器学习对中特估股票关键特征选取的应用与研究

文章目录

    • 概要
    • 研究背景
    • 研究流程与方法
      • 算法实现
    • 总结

概要

技术知识:Python、随机森林、PCA、XGBOOST、皮尔逊相关系数、股票分析、评估方法

本文主要基于巨潮资讯网的股票数据,包含50支中国特色估值体系股票(中特股)和50支普通股票作为样本,提取了这些公司2022年的年度财务数据,涵盖23个关键财务特征。这些特征被认为是初步影响股票走势的重要因素。为了深入分析中特估股票的独特性,将会构建特征指标体系,并通过主成分分析对数据进行降维,筛选出对股票估值有显著影响的核心特征。随后,利用皮尔逊相关系数分析这些关键特征与中特估股票之间的相关性,进一步确认其关联程度。最后,采用随机森林模型对股票数据进行效果评估,研究结果显示测试集的准确率达到85%,AUROC和AUPRC指标分别为0.87和0.83,验证了所选特征指标及研究方法的科学性和有效性。

研究背景

中国特色估值体系是构建中国特色现代资本市场的核心环节之一,它契合新发展需求,基于对中国市场的深刻理解,能精准捕捉上市公司估值逻辑,形成独特框架。作为该体系核心元素的中特股,在资本市场建设、投资决策等方面影响深远,因此深入研究其股票特征选取十分重要。​
在这里插入图片描述

随着数据技术和机器学习算法的发展,算法交易和量化投资成股票市场热点。例如,张训韬等人用 XGBoost 排序股票金融特征,结合 LSTM 模型预测收盘价,效果良好;张倩玉扩充特征参数,经系统聚类和主成分分析降维,降低了模型误差;付嘉华针对股票数据特性,用主成分分析降维后,通过组合模型分类预测,准确率达 81.2%;李希尧选取 20 个关键指标,实现优质股票有效聚类。不过,当前针对中特估股票的研究不足,未来需加强以提供更全面指导。

研究流程与方法

数据来源于巨潮资讯网行情中心(截止至2024年1月)的100支股票数据(50支中特估股票和50支普通股票,共包含23个财务特征),部分原始数据如表1,财务特征如表2。
在这里插入图片描述在这里插入图片描述


首先对数据进行缺失值与异常值检测,其中异常值与缺失值的个数为0,故无需进行删除等操作。由于数据中每个特征的量纲不同,需对数据进行标准化处理。

算法实现

采用主成分分析的降维方法和皮尔逊相关系数,同时引入XGBoost和随机森林模型等技术,对股票数据进行综合性的分类分析。

  • 主成分分析法:
    在这里插入图片描述

注意:本文选择累计贡献率达85%以上的主成分进行综合分析,并选取这些主成分中系数值最大的特征作为该主成分代表性指标。

  • 皮尔逊相关系数:
    在这里插入图片描述

算法逻辑方法如下:
在这里插入图片描述

采用主成分分析方法,对包括24个财务数据指标的训练数据进行降维分析,获得主成分个数与累计方差解释率的关系图:
在这里插入图片描述
其中提取前9个主成分,其累计方差解释率达到了85%以上,根据各主成分中各特征指标的贡献得分高低(荷载系数)筛选出9个主成分中的代表性特征指标,具体指标如下:
在这里插入图片描述
接着利用可视化进行分析:
在这里插入图片描述
相较于普通股票,中特估股票对应的公司在净资产收益率、营业总收入增长率、净资产增长率上更优,尤其存货周转率差异显著,显示其运营和盈利表现更出色。但普通股票企业在流动比率、应收账款周转率等指标上更胜一筹,这暗示中特估股票企业可能存在资产流动性不足问题。因多数中特估股票企业是规模庞大的国有企业,资产流动性差,这也是其资产负债比率较高的主因。

基于随机森林模型,通过网格搜索方法进行模型参数调优后,测试集的中特估股被识别出的准确率高达85%。其中AUROC、AUPRC与F1指标分别达到0.87、0.83与0.84,具备较高的准确性和召回率。
在这里插入图片描述
在这里插入图片描述

总结

中特估股票具有估值较低、内在收益率高、股价涨幅稳定、波动性小的特点,其发行企业多为大型国企,经营态势良好、盈利稳定,有长期投资潜力。本研究以巨潮资讯网行情中心股票数据为基础,构建中特估股票特征指标体系,通过主成分分析和皮尔逊相关系数分析,识别出 9 个对股票估值影响最显著的关键特征指标。随后引入随机森林模型,分析评估这些指标的应用效果,验证了其在中特估股票分类中的有效性。​

参考:《基于机器学习的中特估股票关键特征选取及应用研究》

http://www.dtcms.com/a/299721.html

相关文章:

  • 【橘子分布式】gRPC(番外篇-监听流)
  • Thinkph6中常用的验证方式实例
  • 【时时三省】(C语言基础)用指向函数的指针作函数参数
  • 网络:应用层
  • 【硬件-笔试面试题】硬件/电子工程师,笔试面试题-30,(知识点:传输线特性阻抗,影响因素)
  • 【web应用】基于Vue3和Spring Boot的课程管理前后端数据交互过程
  • 1、虚拟机安装
  • InfluxDB Flux 查询协议实战应用(二)
  • Linux726 raid0,raid1,raid5;raid 创建、保存、停止、删除
  • Python 程序设计讲义(22):循环结构——for 循环
  • 使用FRP搭建内网穿透工具,自己公网服务器独享内外网端口转发
  • C++ APM异步编程模式剖析
  • 2025微前端架构研究与实践方案
  • 【6G新技术探索】AG-UI(Agent User Interaction Protocol) 协议介绍
  • Flutter开发实战之动画与交互设计
  • Java 注解(Annotation)详解:从基础到实战,彻底掌握元数据驱动开发
  • 详细介绍MySQL的索引类型
  • mybatis-plus从入门到入土(三):持久层接口之IService
  • 【MySQL】MySQL 缓存方案
  • 【Redis】Linux 配置Redis
  • 基于华为ENSP的OSPFLSA深入浅出-0
  • 从三维Coulomb势到二维对数势的下降法推导
  • Netty中DefaultChannelPipeline源码解读
  • LangChain vs LangGraph:从困惑到清晰的认知之路(扫盲篇)
  • (一)使用 LangChain 从零开始构建 RAG 系统|RAG From Scratch
  • RM-R1: Reward Modeling as Reasoning
  • Java java.util.Scanner 使用教程
  • 工作流的研究方向
  • (Python)文件储存的认识,文件路径(文件储存基础教程)(Windows系统文件路径)(基础教程)
  • 嵌入式分享#27:原来GT911有两个I2C地址(全志T527)