在金融与经济研究中,一个长期被诟病的问题是公司的行业分类过于死板滞后(SIC自1987年后就未再更新,NAICS每五年更新一次),且一个细分行业里可能同时包含上百家公司,既无法反映企业的动态发展,也难界定最接近的竞争对手 (peer firms)。\n因此,Hoberg and Phillips (2016, JPE) 提出了新的方法:利用 10-K 年报中的 Business Description 文本,构建动态的行业分类和竞争网络。\n? 这篇文章的文本分析技巧:\n1️⃣ Data Crawling + Cleaning\n从 SEC数据库爬取 50,673 份 10-K (1997–2008),提取 Business Description部分(会描述主要产品/服务),保留 nouns + proper nouns,去掉高频常见词和地名。\n2️⃣ Bag-of-Words Approach\n将描述向量化,转为 binary word vector,并做 normalization。\n3️⃣ Cosine Similarity\n用 cosine similarity 衡量两家公司产品描述的相似度:相似度越高 = 竞争越强。\n4️⃣ Network Construction\n基于cosine similarity,每家公司都有独特的 peer firms,像 social network。\n5️⃣ Time-Varying Classification\n年报逐年更新,能捕捉行业动态,可以研究 industry shocks的影响。\n6️⃣ External Validation\n更好解释管理层讨论中的“high competition”,匹配 Capital IQ peers,并解释行业间 profitability, growth, risk 差异。\n? 总结: HP (2016) 通过 text → vector → cosine similarity → network,从而建立一个动态的行业分类。相比传统 SIC/NAICS,它更贴近真实竞争,也能捕捉行业演化, 在学界成为了peer firm和行业分类的新标杆。\n \n#NLP #金融科技 #金融 #数据科学 #fintech #量化 #量化投资 #人工智能 #学术 #金融与投资