
中国上市公司数智化(1991-2024)
获取方法见推文末
数据简介
CNPaperData
企业数智化是一项系统性变革,其指标的数据价值在于能够客观量化企业数字化与智能化融合的深度和广度,通过Python文本分析构建的数智化关键词词频指标,不仅可识别企业技术应用的真实水平,还能动态追踪数智化转型进程,为研究企业行为变革提供可观测的微观基础。从研究价值看,该指标揭示了数智化对企业信息披露行为的重塑机制:一方面拓展了数字化转型经济后果的研究边界,从传统关注的治理效率、市场表现延伸至信息披露策略选择;另一方面通过验证数智化对正式渠道量化预测信息的替代效应,揭示了企业利用非正式渠道定性披露规避风险、优化沟通的新范式,为理解数字经济时代企业信息披露的渠道偏好、形式创新及风险应对机制提供了理论突破,因此本数据参考刘凌冰,王语彤,耿会欣(2024)的做法,构建上市公司数智化指标。
首先,我们基于A股上市公司年报的文本数据,利用上市公司行业分类名单,剔除金融业和保险业的公司以及ST和期间退市的样本,对筛选出的制年报进行中文分词处理,参考哈工大停用词表,过滤掉年报文本中的停用词,即提取有效词汇,随后基于预定义的数智化专业词典识别行业特征术语,其中部分数智化识别术语如下:
“智能金融合约”,“机器学习”,“流计算”,“深度学习”,“混合现实”,“差分隐私技术”,“智能医疗”,“电子商务”,“…..”
分别计算各公司年报中特征术语的绝对出现频次及其占总文本词汇量的相对比重,由于这类数据具有典型的 “右偏性” 特征, 对其进行对数化处理 (即加 1 后取自然对数) , 从而得到刻画企业数智化程度的整体指标,包含股票代码、公司名称、总词数、特征词频次及占比的结构化数据集,为监管部门完善信息披露规则、投资者提升信息甄别能力提供了实践启示。
数据信息
CNPaperData
数据来源:原始数据来源于A股上市公司年报文本,由数据皮皮侠团队人工整理,全部内容真实有效。
数据范围:A股上市公司
时间跨度:1991年-2024年
数据格式:Excel
数据字段:

数据展示
CNPaperData

参考文献
CNPaperData
[1]刘凌冰,王语彤,耿会欣.企业数智化与量化预算目标信息披露行为[J].会计研究,2024,(11):63-78.
会员权益
CNPaperData
CNPaperData(简称CNPD)是立足大规模数据采集、清洗、挖掘的国家高新技术企业,借鉴Compustat、WRDS等国际知名数据库及FT50期刊专业标准,打造中国特色经济管理社会科学研究型数据库。涵盖上市公司、企业、省份、地级市、县域、高校、人物等研究对象,涵盖经济、法律、金融、政策、科技、文化、健康、环保、人口等各类热门数据。顶刊标准数据,好数据助力发好刊!获取数据地址https://www.ppmandata.cn/trade/list


获取方式
CNPaperData
数据编号 1914
1.高级会员或永久会员可在官网搜索对应编号免费下载
2.非高级会员或永久会员搜索对应编号后在网页右上角通过数据元单独购买
以1533为示例:

数据会员直接下载地址:
www.ppmandata.cn

