发布信息

省、市、上市公司数字化、智能制造指数合集

作者:本站编辑      2026-01-03 15:38:35     0
省、市、上市公司数字化、智能制造指数合集

2056

文本分析合集数据

数据简介

近五年的学术研究里,文本分析领域像在铺一条看得见的路,每篇文献都是路上的砖石。2020 年起,中文文献的砖石一块块累加,到 2024 年已铺就 1627 块的规模;外文文献也没落下,490 块砖石紧随其后,稳稳跟在这条路上。2024 年时,外文文献的砖石还在以 8.00% 的速度添新,中文文献添砖的节奏虽慢了些,却也始终没停。这条由文献铺成的路,悄悄记下了文本分析领域受关注的变化,而本数据要探究的智能制造、探索式创新、大数据、数字化转型这几个主题,它们在学术圈受关注的轨迹,正藏在这条路的砖石纹理里,等着被梳理清楚。

本项目构建了一套完整的文本数据分析流程,涵盖从原始政府报告和企业年报到最终结构化分析数据的全过程转换。整个处理流程分为三个主要阶段,通过多个Python脚本协同工作,实现了文本预处理、信息提取和数据聚合的自动化操作。

原始数据预处理阶段从多种格式的文档开始处理。地级市政府报告通常以Word文档格式存在,首先需要通过专门的转换程序将其批量转换为纯文本格式,去除格式信息但保留完整的文字内容。随后对所有文本文件进行中文分词处理,这是中文文本分析的关键步骤,将连续的中文句子切分成有意义的词汇单元。分词结果被保存在专门的目录中供后续使用。基于分词结果,系统会计算预定义关键词在每个文档中的出现频次,形成词频统计矩阵,其中行代表不同的文档,列代表不同的关键词,数值表示该关键词在对应文档中的出现次数。省级政府报告和上市公司年报遵循相同的处理逻辑,最终每类数据都生成相应的词频统计文件。

信息提取与结构化整理阶段专注于从文件名中提取关键的分类信息。每个原始文件的命名都包含重要的元数据信息,需要通过解析算法准确提取。对于省级数据,采用相对简单的时间分割策略,将年份前的所有中文内容识别为省级行政区名称。地级市数据的处理更为复杂,需要先建立完整的省级行政区名称库,包括标准省份名称和各种自治区的完整及简化形式,然后采用贪婪匹配算法优先识别最长的省份名称,避免部分匹配导致的错误,最后提取省份名称和年份之间的内容作为城市信息。直辖市作为特殊情况需要单独处理,确保省份和城市信息的一致性。上市公司数据基于证券市场的标准化命名规则,通过位置提取的方式获得年份和股票代码信息。所有提取的信息都会作为新的列添加到原有的词频数据中,形成包含地理、时间和内容信息的完整数据集。

关键词聚合与最终分析阶段将分散的词频信息按照研究主题进行重新组织。系统预定义了五个主要的研究维度,每个维度包含相关的关键词集合。通过遍历每个样本的所有关键词列,识别属于特定主题的词汇,计算其词频总和,形成主题级别的聚合指标。这种聚合方式将原本分散在数百个具体关键词上的信息浓缩为几个核心指标,既保留了重要信息又大大简化了后续分析的复杂度。最终输出的数据集包含了样本的基本分类信息、时间信息和各主题维度的聚合指标,可以直接用于区域比较分析、时间趋势研究和行业特征分析,为政策研究和企业分析提供了标准化的数据基础。

时间跨度

2002-2025

数据范围

省级、地市级、上市公司文本

数据展示
关键词汇总

智能制造version1:"智能制造","智能机器","智能生产","机器人","全自动","全机器"

智能制造version2:"中国制造2025","工业4.0","互联网+","自动化","信息化","信息化管理","信息化应用","数字化","网络化","集成化","虚拟化","智能化","物联网","虚拟现实","3D打印","人工智能","生物识别","模式识别","神经网络","云计算","云平台","云服务","云技术","大数据","海量数据","数据中心","数据存储","数据分析","数据挖掘","互联网","移动互联网","互联","机器人","工业机器人","数控机床","数控系统","传感器","智能物流","智能服务","智能终端","绿色制造","高端装备制造","军民融合","智能电网","能源互联网","智慧能源","智能家居","智慧城市","智慧交通","智慧医疗","智慧社区","电子政务","新能源汽车","电动汽车","电动车","动力电池","充电桩"

探索式创新:"探索","搜索","变化","冒险","试验","灵活性","发掘","革新"

大数据:"大数据","海量数据","数据中心","信息资产","数据化","算力","区块链"

数字化转型:"人工智能","商业智能","图像理解","投资决策辅助系统","智能数据分析","智能机器人","机器学习","深度学习","语义搜索","生物识别技术","人脸识别","语音识别","身份验证","自动驾驶","自然语言处理","大数据","数据挖掘","文本挖掘","数据可视化","异构数据","征信","增强现实","混合现实","虚拟现实","云计算","流计算","图计算","内存计算","多方安全计算","类脑计算","绿色计算","认知计算","融合架构","级并发","EB缓存","物联网","信息物理系统","区块链","数字货币","分布式计算","差分隐私技术","智能金融合约","移动互联网","工业互联网","互联网医疗","电子商务","移动支付","第三方支付","NFC支付","智能能源","B2B","B2C","C2B","C2C","O2O","网联","智能穿戴","智慧农业","智能交通","智能医疗","智能客服","智能能源","智能投顾","智能文旅","智能环保","智能电网","智能营销","数字营销","无人零售","互联网金融","数字金融","Fintech","金融科技","量化金融","开放银行"

声明:本数据由数据皮皮侠团队整理,仅用于学术研究

永久会员数据展示

向下滑动查看

资源获取方式

 数据编号 2056

高级会员或永久会员 可在官网搜索对应编号免费下载

官方网站:www.ppmandata.cn

非高级会员或永久会员 可进入官网

索对应编号后在网页右上角通过数据元购买

以1533为示例:

共享数据列表

5G示范城市DID|地级市中小企业数字化转型DID城市绿色工业园区DID|省数字经济投入|农业新质生产力|省、市新质生产力指数|数字经济政策词频|城市综合治理|政府绿色环保发展城市群政策DID|政府数据开放DID|宽带中国DID|市场准入负面清单DID|国际稀土贸易数据|长护险DID绿色数据中心DID|高管艺术暴露|政府姿态|区块链电子发票DID|全球治理指标|高管团队稳定性|数字化政府建设|可持续发展议程创新示范区DID|企业供应链成本分摊|产业数字化DID|OECD数字服务贸易限制指数|地方政府环境治理|数字政府发展指数|地级市市场潜力|城市减污降碳水平|数字鸿沟指数|全国统一大市场发展水平|美国历任总统数据|大数据管理机构改革DID|高校导师评价数据|省平均受教育年限与学历|全国平均风速|产品市场竞争程度|全球价值链贸易核算|中国反腐数据|中国语言地图|农产品地理标志|双边移民数据|省市城市区县医院数据|市长特征信息|日本全国地级市级别年度决算收支状况|全球各国金融危机发生次数|国家自然科学基金标书大全|MSCIESG评级面板|主要城市房价指数|贷款市场报价利率(LPR)|普惠金融改革试验区DID|城镇化率|城市发展环境指数|华证ESG评级数据|秩鼎ESG评级数据| 可持续性再生能源消纳量|供应链金融水平|社会信任的5种测算||历年空气污染指标|信息惠民国家试点DID|绿色金融DID|绿色企业识别数据|上市公司能源消耗|农业现代化|乡村振兴水平|企业跨国并购数据|市政府财政透明度|淘宝村特征数据|碳减排绩效指标数据|分行业二氧化碳排放量|银行贷款与政府补贴数据| CCTV新闻联播每日内容文本数据|全国百强区、百强县数据| 全国地理基础信息数据库|各省368个地级市河流密度数据|386个地级市到杭州的球面距离|制造业&非制造业指数|明朝&清朝科举考试—进士登科数据|市公司税收统计数据|中国幼儿园数据| 各省份经济增长目标|上市公司微信、微博信息|各省份农用机械总动力| 上市公司会计信息披露及时性指标|上市公司管理层短视指标|上市公司⾼管信息数据|市老龄事业注意力|省主要污染物排放|产业结构高级化、合理化|美国日本新冠|政府工作报告|国家、省投入产出表|中国省、市、县企业注册数据|环境投资明细整理

相关内容 查看全部