发布信息

100家数据行业企业——海天瑞声:AI大模型浪潮背后的“数据基建商”

作者:本站编辑      2026-04-09 14:50:47     0
100家数据行业企业——海天瑞声:AI大模型浪潮背后的“数据基建商”

海天瑞声:AI大模型浪潮背后的“数据基建商”

在AI行业过去几年的狂飙突进中,聚光灯始终打在算法突破、算力竞赛和产品应用上。但很少有人注意到,在每一款大模型、每一次人机对话、每一帧自动驾驶感知的背后,有一个沉默却不可或缺的角色——训练数据。
如果把大模型比作一座摩天大楼,算法是图纸,算力是塔吊,数据则是埋在地下的钢筋水泥。没有足够高质量、高精度的训练数据,再先进的算法也无法落地。而海天瑞声,正是这座庞大“数据地基”的筑造者。

起家:二十年深耕,AI数据行业的“老基建”

海天瑞声的故事始于2005年,比今天绝大多数AI明星公司都要早得多。公司创始人、董事长贺琳曾任职于中国科学院声学研究所,深厚的学术背景为她日后带领公司深耕人工智能数据训练领域奠定了坚实基础。联合创始人、CEO李科同样具备深厚的技术背景和管理经验,两人携手搭建起国内AI训练数据行业的“初代班底”。
公司的核心业务非常清晰:为AI企业和科研机构提供智能语音、计算机视觉、自然语言处理等领域的工程化数据资源产品和服务,覆盖近200个主要语种及方言(含240+细分语种变体)。客户名单几乎囊括了全球AI产业的头部玩家——腾讯、百度、微软、三星、科大讯飞、海康威视、字节跳动等,累计服务全球超1000家科技企业及科研机构,成为AI产业链上不可替代的“数据供应商”。
但海天瑞声真正引人注目的身份是:AI数据行业首家科创板上市公司。2021年8月13日,公司在科创板挂牌,股票代码688787,成为A股市场上最纯正的“AI训练数据”标的,也标志着AI数据行业正式进入资本市场视野。
在亏损曾是AI行业常态的大背景下,海天瑞声走出了一条可持续的盈利之路。2024年,公司实现营业收入2.37亿元,同比增长39.45%,归母净利润1133.61万元,成功扭亏为盈;2025年营收增速进一步加快,全年预计实现营业收入3.77亿元,同比增长59%,2025年归母净利润为1407万元,连续盈利的表现,充分证明了其商业模式的可行性与竞争力。

核心业务:三大板块全面开花,结构持续优化

海天瑞声的业务版图由智能语音、计算机视觉、自然语言处理三大板块构成,三者协同发力,撑起公司的高速增长。2025年上半年,三大业务全面爆发,公司实现营业收入1.57亿元,同比增长69.54%;归母净利润380.46万元,同比增长813.65%,增速远超行业平均水平。
从收入结构来看,一个显著的变化正在发生:过去以智能语音为绝对主导的收入格局,正在被快速崛起的视觉和自然语言业务重塑。2025年上半年,智能语音业务占比为69.43%,计算机视觉提升至19.63%,自然语言提升至10.16%;而到了全年口径,计算机视觉占比进一步飙升至40.02%,自然语言达13.90%,智能语音占比则降至44.13%。
视觉业务的迅猛增长,主要得益于视觉大模型技术的快速迭代,特别是图像与视频文本对等数据需求的爆发式增长;与此同时,自然语言业务也在加速突围,大模型技术在政务、法律合规等专业领域的深度应用,叠加全球化扩张带来的多语种语料需求激增,共同推动了该业务的快速发展,成为公司新的增长引擎。

数据玩法:从“标注工厂”到“数据基础设施”

海天瑞声的核心价值,在于将原始、碎片、非结构化的数据,加工成AI模型可以直接“消化”的高质量训练数据集。这个过程远比外界想象的复杂,背后是其深耕二十年的工程化能力与质量管控体系。
首先是强大的数据“工程化”能力。海天瑞声凭借自主研发的DOTS一体化数据处理平台和人机协同标注体系,实现了数据处理规模、效率与成本控制的完美平衡。截至目前,公司已累计研发超150个新增训练数据集产品,自有知识产权标准化产品储备达1790个,可满足不同行业、不同场景的AI训练需求。
其次是全球化多语种覆盖优势。海天瑞声已构建覆盖全球超200种语种(含240+细分变体)的多模态数据资源体系,能够为跨国AI企业提供多语种语音识别数据、多语种手写体数据、多语种文本数据等一站式服务,助力中国AI企业出海适配全球市场。
第三是严苛的质量保障体系。2025年10月,海天瑞声的高质量数据集通过中国信通院可信AI人工智能数据集质量评估,获得当前最高评级4级,涵盖贸易、政务、金融、医疗、交通、工业等36个重点领域,总数据规模达180TB,数据精度、合规性均处于行业领先水平。

出海与政企合作:双向发力,打开增长天花板

国内市场之外,海天瑞声正在加速全球化布局,而在国内,政企合作的深度与广度也在持续拓展,成为公司增长的重要支撑,每一个合作项目都有实打实的落地成效与运营数据佐证。
在出海布局上,2024年,公司在东南亚整合了一个超1000人的数据交付基地,当年境外收入达1.14亿元,同比增长89.53%,占总营收的48.1%;该基地在2025年持续发力,贡献了千万级美元收入,成为公司境外业务的核心支点。公司计划到2026年底,在境外再新增300至500人,进一步扩大全球化服务能力。
在国内政企合作方面,海天瑞声已与多个地方政府、国家级基地达成深度合作,落地多个标杆项目,成效显著:
  1. 呼和浩特高质量数据集项目:2025年完成首批交付,涵盖政务、工业、文旅三大领域,共交付标准化数据集46个,总数据量达12TB,覆盖企业注册、工业生产、景区运营等18个细分场景,助力当地政务服务智能化升级,推动工业数据资产化落地,目前已支撑当地3家重点企业完成AI模型训练,提升生产效率30%以上。
  2. 广西东盟语料库项目:作为广西首批东盟语料库建设合作方,海天瑞声完成了12种东盟官方语言及5种地方方言的语料采集与标注,总语料量达800万条,涵盖日常交流、商务洽谈、政务沟通等核心场景,语料准确率达99.8%,为广西与东盟的AI合作、跨境数据流通提供了核心支撑,目前已应用于当地跨境电商、涉外政务服务等领域,降低多语言沟通成本40%。
  3. 国家级数据标注基地合作:与成都、长沙等国家级数据标注基地试点城市建立深度合作,共建标准化数据标注实训基地,累计培训专业标注人员超2000人,输出标准化标注数据超50TB,助力当地打造数据标注产业集群,带动就业岗位1500余个,推动区域数字经济发展。
此外,公司还与视觉中国签署战略合作协议,聚焦智能数据服务、版权合规生态及多模态内容开发三大领域,整合双方资源,打造合规、高质量的多模态数据资源池,目前已联合推出3款多模态数据集产品,覆盖图像、文本、语音等类型,服务客户超50家。

新赛道:押注具身智能,抢占未来先机

如果说AI大模型是当下的主战场,那么具身智能就是海天瑞声正在押注的“下一站”。公司已将其作为战略重点进行前瞻布局,组建专项团队,加快业务落地,率先抢占具身智能数据赛道的先发优势。
从市场需求看,国内外头部科技企业与本体厂商已启动规模化数据采购,需求覆盖真实场景交互数据、第一人称视角数据、仿真数据等多种类型。目前,海天瑞声已与国内某头部具身厂商签署真机数据采集合约,首批交付数据量达5TB,涵盖人形机器人日常交互、工业场景作业等核心场景;同时,与多家头部具身厂商、科技大厂及地方政府启动订单对接。
不仅如此,公司还携手石景山人形机器人数据训练中心,共建“具身智能数据训练场”,并发布了全国首个具身智能数据工程化服务平台,致力于打造“数据采集—模型训练—场景验证”的全流程闭环,为具身智能产业提供标准化、高质量的数据支撑,助力人形机器人、智能穿戴等产品快速落地。

竞争优势:四大壁垒,筑牢行业地位

在训练数据领域,海天瑞声能够长期领跑,核心在于拥有四大难以复制的竞争壁垒:
一是“服务+标准化产品”双模式。标准化数据产品是收入和毛利的主要来源,其可复用的研产销体系保障了业务的规模化和高利润率;定制化服务则精准匹配客户个性化需求,提升客户粘性,2025年定制化服务收入占比达68%,标准化产品占比32%,双模式协同支撑公司稳定增长。
二是领先的技术平台。通过人机协同的算法辅助技术,结合自研DOTS、DOTS-AD(自动驾驶)等数据处理平台,有效提升了数据处理规模、效率与成本控制能力,标注效率较行业平均水平提升50%以上,标注精度达99.97%。
三是强大的供应链体系。建立了覆盖全球70+国家的长期稳定供应链资源管理体系,能够快速响应多语种、多场景的数据需求,保障数据供应的稳定性与及时性。
四是全面的安全合规保障。已获得ISO27001、ISO27701、乙级测绘资质及等保三级认证,是全球首家通过AI语音数据合规出境认证的企业,业务全面符合GDPR、国内《数据安全法》等全球主流法律法规,筑牢数据安全底线。

潜在挑战:在机遇中应对成长的烦恼

当然,快速增长的背后,海天瑞声也面临着明确的挑战,这既是行业共性问题,也是公司成长路上的必经之路。
其一,盈利能力的阶段性压力。2025年上半年,公司毛利率为50.17%,同比下降20.16个百分点,主要系新拓展的境外内容审核业务和央企定制化服务收入占比提升所致——定制化服务毛利率低于标准化产品,拉低了整体毛利水平。对此,公司已着手加快推进标注流程智能化升级与标准化产品体系建设,逐步优化毛利结构。
其二,市场规模的局限性。尽管数据标注市场增长迅速,但中国整体市场规模预计在百亿量级,与软件、云计算等万亿级市场相比仍然较小。作为A股唯一的纯正AI训练数据标的,海天瑞声享受了一定的稀缺性溢价,但也面临市场天花板相对有限的长期约束,未来需要通过拓展新赛道(如具身智能数据)、提升产品附加值来突破增长瓶颈。
其三,政策利好与竞争并存。2025年初,国家发改委等4部门发布《关于促进数据标注产业高质量发展的实施意见》,提出到2027年数据标注产业规模大幅跃升,年均复合增长率超20%,政策红利为行业发展提供了良好环境。但与此同时,行业竞争也在加剧,既有品牌数据服务商的激烈角逐,也有AI大厂自建数据团队带来的压力,市场格局仍在持续演变。

小结:沉默的基建商,AI时代的隐形基石

海天瑞声的独特之处在于:它不追逐AI应用的热点,不开发自己的大模型,不参与算法竞赛——它只做一件事,就是把AI产业的“地基”打好。在AI从“技术突破”迈向“规模化落地”的关键阶段,高质量训练数据正成为越来越稀缺的战略资源,而海天瑞声,正是这份资源的核心供给者。
它就像AI产业背后的“隐形基建商”,不站在聚光灯下,却支撑着每一次技术突破、每一款产品落地。从语音识别到视觉感知,从大模型训练到具身智能,每一场AI盛宴的背后,都有它默默浇筑的数据地基。未来,随着AI技术的持续迭代与数据要素市场化的深入推进,这份“地基”的价值,还将持续放大。

相关内容 查看全部