上市公司数字化转型策略数据(2000-2024)
上市公司数字化转型策略数据(2000-2024)
数据简介
在数字经济成为国民经济核心增长极、企业数字化转型成为高质量发展关键路径的背景下。公募基金为代表的耐心资本识别企业数字化转型真实性的过程中,“言”维度(数字化转型信息披露)是资本市场感知企业转型意图的首要窗口,也是界定企业“多言寡行”策略性转型的核心基础。本数据聚焦该研究框架下“言”维度的量化刻画,覆盖沪深A股上市公司数字化转型的信息披露特征,通过文本挖掘技术系统性归集企业年报中与数字化转型相关的披露内容,填补“转型披露强度—披露结构—资本关注响应”链条中“言”维度的数据空白,为监管部门规范企业数字化转型披露、高校开展数字化转型实证研究、企业优化转型战略提供精准的数据支撑。
本数据核心来源为深圳证券交易所、上海证券交易所官方披露的所有A股上市企业年度报告,样本期间覆盖1994-2024年。基于数字经济核心技术框架与政策文件,筛选出“人工智能”、“商业智能”、“图像理解”、“投资决策辅助系统”、“智能数据分析”、“智能机器人”等42个结构化特征词,通过Python爬虫与文本识别技术(Java PDFbox库提取年报文本)对企业年报进行特征词“搜索—匹配—去重—计数”,分类归集关键技术方向词频并形成总词频(kw_sum);考虑到数据右偏性特征,对kw_sum进行对数化处理以满足实证分析需求。最终清洗后形成63,055条“股票代码—年份—数字化特征”三维度有效记录,涵盖企业各年度数字化转型的技术投入细节与整体强度。
数据信息
-
数据格式:Excel
-
数据字段:
| 股票代码 | 年份 | kw_sum | 总词数 | 人脸识别 | 身份验证 | 混合现实 | 文本挖掘 |
| 绿色计算 | 语义搜索 | 内存计算 | 融合架构 | 商业智能 | 流计算 | 分布式计算 | 智能机器人 |
| 深度学习 | 信息物理系统 | 云计算 | 数字货币 | EB级存储 | 物联网 | 虚拟现实 | 图像理解 |
| 语音识别 | 大数据 | 数据可视化 | 自动驾驶 | 人工智能 | 认知计算 | 智能金融合约 | 投资决策辅助系统 |
| 智能数据分析 | 自然语言处理 | 征信 | 差分隐私技术 | 增强现实 | 生物识别技术 | 区块链 | 多方安全计算 |
| 类脑计算 | 亿级并发 | 异构数据 | 图计算 | 机器学习 | 数据挖掘 | 更多数据 |
选题方向
选题1:1994-2024年A股上市公司数字化转型时序趋势与技术演进研究
基于数据的“年份-kw_sum-技术特征词频”维度,运用时间序列分析(如HP滤波、年度增长率分解)与技术词频聚类,刻画我国上市公司数字化转型的整体强度变化(如2016年“国家大数据综合试验区”设立后转型加速特征)及技术路径演进(如早期以“云计算”“大数据”为主,后期向“人工智能”“区块链”延伸的趋势)。重点识别政策节点(如数字经济政策出台)对转型趋势的冲击效应,为判断数字化转型阶段特征、预测未来技术布局方向提供实证依据。
选题2:上市公司数字化转型技术布局的行业异质性及驱动因素分析
以“股票代码-行业分类”(参考证监会2012年行业分类)为依据,将样本划分为制造业、信息技术业、服务业等大类,通过泰尔指数量化行业间转型强度差异,结合交叉分析对比不同行业的核心技术选择(如制造业偏好“工业互联网”“物联网”,金融业偏好“区块链”“智能金融合约”)。进一步结合企业财务数据(如营收规模、研发投入),运用面板回归探究行业竞争度、企业规模对技术布局的驱动作用,为不同行业企业制定差异化转型策略提供参考。
选题3:企业数字化转型对资本市场表现的影响机制——基于股票流动性与融资成本的视角
关联本数据的“kw_sum(转型强度)”与CSMAR数据库的“股票流动性(Amihud非流动性指标)”“股权融资成本(PEG模型)”数据,运用中介效应模型检验数字化转型通过“信息不对称缓解”(以分析师调研次数为代理变量)、“创新产出提升”(以专利数量为代理变量)对资本市场表现的影响路径。重点验证不同转型技术(如大数据vs区块链)的效应差异,为理解“数字化转型-资本市场”互动关系提供微观证据。
选题4:数字金融发展对上市公司数字化转型的调节效应研究
结合省级数字金融指数(如北京大学数字金融研究中心指数)与本数据,运用双重差分模型(DID)或调节效应模型,探究外部数字金融环境对企业数字化转型的支撑作用——如数字金融是否通过降低融资约束,提升企业数字化转型强度(kw_sum)、优化技术布局(如增加“人工智能”等高技术投入)。进一步按企业产权性质(国有/非国有)分组检验,识别数字金融赋能的异质性特征,为完善数字金融支持实体经济转型的政策提供参考。
选题5:上市公司数字化转型策略识别与绩效差异——基于“技术投入-文本披露”匹配度的视角
基于本数据的“总词频(文本披露)”与“各技术特征词频(实际投入)”,构建“披露-投入匹配度”指标(如匹配度低代表“多言寡行”策略),运用倾向得分匹配(PSM)对比不同转型策略企业的财务绩效(ROE、全要素生产率)与市场绩效(托宾Q值)差异。重点识别“伪转型”企业的特征(如高文本披露、低技术投入),为监管部门打击“数字粉饰”行为、引导企业实质性转型提供数据支撑。
数据展示




参考文献
CNPaperData
[1]吴非,胡慧芷,林慧妍,等.企业数字化转型与资本市场表现——来自股票流动性的经验证据[J].管理世界,2021,37(07):130-144+10.DOI:10.19744/j.cnki.11-1235/f.2021.0097.
[2]李心武,卢闯,牛煜皓,等.企业数字化转型中耐心资本的价值发现功能研究[J/OL].数量经济技术经济研究,1-21[2025-11-03].https://doi.org/10.13653/j.cnki.jqte.20251014.001.
