北京海天瑞声科技股份有限公司：作为人工智能数据解决方案提供商、数字软件与工业服务专精特新企业档案

全文

回到企业研报

阅读路径

企业与对标

从单篇研报进入企业档案、同地区样本、同产业样本和同批次归档。

北京海天瑞声科技股份有限公司企业档案北京市企业档案北京市研报归档工业软件与信息服务企业档案工业软件与信息服务研报归档第二批研报归档

英文入口

面向海外检索流量，连接英文摘要、英文企业档案和英文索引页。

英文摘要英文企业档案英文企业库英文研报库

专题延伸

按申报条件、材料一致性、产业链位置和知识产权继续阅读。

北京市专精特新小巨人企业名单第二批专精特新小巨人名单与行业分布专精特新产业链位置证明人工智能与算力专精特新企业专题工业软件专精特新企业专题数据库与数据治理专精特新企业专题

申报材料

把研报中的企业事实转为申请书、复核、审计和附件核验路径。

政策文件表格模板申报测评材料映射申请书填写复核材料

权威核验

外部链接用于核验政策通知、主体登记、知识产权和公开信用信息。

梯度培育平台工信部中小企业局国家知识产权局国家企业信用信息公示系统

横向比较

省内样本1351 家地区企业基数

同城样本1329 家本地产业密度

同业样本5226 家全国行业口径

链条位置1329 家全国同位置企业

省内同业615 家区域赛道样本

专利分位31行业样本排序

北京市新一代信息技术样本共有 615 家，北京海天瑞声科技股份有限公司适合放在省内同行、同批次和同链条三个口径中比较。

北京海天瑞声科技股份有限公司处在电子信息与数字技术的数字软件与工业服务环节，全国同一位置样本为 1329 家。

专利数为 50 件，行业样本中位数为 81 件，行业分位约 31。

产业链上下游

所在链条电子信息与数字技术

数字软件与工业服务

上游观察数据、设备与业务流程

下游观察行业客户与运营场景

同省同行业

同城企业

同产业链位置

一、企业速览

企业基础信息：公司名称：北京海天瑞声科技股份有限公司；地区：北京市海淀区；行业：工业软件与信息服务 (电子信息与数字技术)；成立时间：2005-05-11；注册资本：6032.518万元；员工规模：244人；专利数量：50件；认定批次：2020年第二批；上市状态：科创板上市 (688787.SH)。

北京海天瑞声科技股份有限公司（下称“海天瑞声”）是一家专注于人工智能数据服务的解决方案提供商，位于“电子信息与数字技术”产业链上游的“数字软件与工业服务”环节，为下游AI算法企业提供训练所需的多语言、跨模态数据集及数据治理服务。

二、主营产品与产业链定位

海天瑞声的核心产品并非传统意义上的软件或硬件，而是用于训练人工智能模型的“数据原料”及配套服务。具体包括面向智能语音（如远场语音识别、方言转写）、计算机视觉（如自动驾驶场景中的2D/3D标注）、自然语言处理（如对话系统语料库构建）等领域的定制化数据集。此外，公司也提供数据采集、清洗、标注及质检的综合服务。

在“电子信息与数字技术”产业链中，AI模型的性能高度依赖训练数据的规模、质量与多样性。海天瑞声所处的“数字软件与工业服务”环节，实质上承担了从“原始数据”向“可用训练数据”转化的关键角色。其产业链逻辑如下图所示：

产业链环节	具体内容	与海天瑞声的关系
上游：数据产生与基础设施	包括数据采集设备（麦克风阵列、摄像头、LiDAR）、云计算算力、存储硬件，以及数据源提供方（如互联网平台、出版社、公共服务机构）	海天瑞声需向上游采购硬件设备（行业共识：如科大讯飞的麦克风阵列、大疆的无人机设备用于特定场景采集）以及云服务（行业共识：如阿里云、华为云）来处理与存储海量数据。
中游：数据服务与工具链	涵盖数据标注平台、数据治理软件、数据集产品及定制化服务。本环节是海天瑞声的核心阵地。	公司自研数据标注平台（内部工具），并基于平台为客户交付数据集。服务模式分为“标准化数据集销售”与“定制化项目交付”。毛利率50.17%反映其服务附加值较高。
下游：AI算法与应用	包括互联网科技巨头（如百度、腾讯、字节跳动）、AI算法创业公司、车企（智能驾驶）、学术研究机构、政府部门（如ToG可信数据空间）。	下游客户高度集中。2025年一季度业绩增长主要得益于AI数据服务业务和ToG业务。与810家国内外企业及学术机构建立合作（数据来源：企业简介）

该定位意味着，海天瑞声的价值驱动因子并非软件许可收入或硬件产品出货量，而是来自下游AI产业对更高质量、更多场景（特别是具身智能、自动驾驶、大模型对齐等前沿领域）训练数据的需求。其核心竞争力不在于算法创新，而在于对数据处理流程的精细化管理、多语种资源积累以及对特定场景数据语义的深度理解。

三、核心工序与技术依赖

作为一家数据服务商，海天瑞声的生产过程即数据处理过程，其核心工序围绕“数据全生命周期管理”展开。根据行业典型实践（行业共识），关键工序包括以下几个步骤，且对精度和效率有明确要求：

1. 数据采集与清洗：根据项目需求设计采集方案（如采集环境、设备参数、采集时长）。例如，自动驾驶场景需在多种天气与路况下进行；语音采集需覆盖不同麦克风阵列、不同信噪比环境。原始数据需进行去重、去噪、格式统一等初步清洗。典型要求：语音数据采样率不低于16kHz，位深16bit；图像数据分辨率不低于1080P。

2. 数据标注（核心工序）：使用内部标注平台进行人工或人机协同标注。这是技术密度最高环节。

语音标注：音素级、音节级标注，包括背景噪声类型标记、说话人身份标记。典型要求：声音时间戳误差不超过10毫秒。
图像/点云标注：CV领域包括2D框、语义分割、3D立方体标注；自动驾驶激光雷达点云需进行目标检测（车辆、行人、骑行者）、道路分割、动态目标跟踪等。典型要求：3D标注IoU（交并比）不低于80%。
NLP标注：语义槽填充、情感极性标注、逻辑关系标注。大模型SFT（监督微调）阶段需进行高质量QA对构建。

3. 质量检验（QA）：初检+抽检（抽检比例通常为30%-100%）。在关键项目上，需进行多轮交叉验证，质检标准由客户提供或双方协商。自动质检工具（如基于规则引擎）用于卡控常见错误。

4. 数据脱敏与合规审查：对于涉及人脸、车牌、医疗信息等敏感数据，需进行脱敏处理（如模糊化、擦除）。同时需确保数据来源合规，符合《数据安全法》、《个人信息保护法》等法规。

5. 数据格式转换与交付：将标注结果按客户要求的格式（如COCO、Pascal VOC、KITTI、TextGrid等）打包交付，并附带数据使用说明书。

上游关键原材料和设备的典型来源（行业共识）：

材料/设备	典型供应商（国产）	典型供应商（进口）	国产化程度
麦克风阵列	科大讯飞、瑞声科技	Knowles	较高，但高端阵列仍需进口
激光雷达（用于采集）	禾赛科技、速腾聚创	Velodyne、Ouster	正在快速替代
工业相机	海康机器人、大恒图像	Basler、FLIR	较高，尤其在可见光领域
云计算算力/存储	阿里云、华为云、腾讯云	AWS、Microsoft Azure	上云服务国产化程度高
标注平台软件	自研为主（海天、爱数等）	Labelbox、Scale AI	逐步替代，但高端SaaS平台仍为进口

海天瑞声在这个链条中的定位是“数据工程师+软件集成商”。它不生产传感器或云基础设施，而是在此基础上构建一套高效、可控、合规的数据处理流水线。其50件专利（截至数据库数据）大概率聚焦于：数据标注自动化方法（如基于规则或弱监督的自动标注）、多语种数据清洗算法、特定场景（如车载、医疗）的数据治理工具等。这解释了其为何能以244人的团队支撑起数千个定制化项目——核心在于软件工具链的复用与效率提升。

四、竞争格局

海天瑞声所处的AI数据服务赛道在全国共有1578家同类企业（数据来源：数据库），竞争格局呈现“大而全”平台与“专而精”细分服务商并存的局面。主要竞争对手包括：

Appen（澳鹏）：全球领先的AI数据服务商，提供覆盖语音、图像、文本、视频的全品类服务。规模远超海天瑞声，在汽车、零售等领域有深厚积累。产品多基于海外平台，本地化服务能力相对较弱。
Scale AI：美国AI数据独角兽，主要服务于自动驾驶和通用AI领域。技术驱动，平台主打自动化标注与数据管理。未在国内大规模布局，但影响力巨大。
百度众测（Baidu Crowdtest）：依托百度的AI生态和流量，提供众包式数据采集与标注服务。价格较低，但数据质量控制（尤其是复杂场景）不如专业服务商精细。
云测数据（Testin Data）：国内数据标注服务商，擅长自动驾驶、智能家居场景。在数据安全与合规方面有一定积累，与多家车企和解决方案商有合作。

该赛道的竞争集中在以下三个维度：

1. 数据质量与精度：这是核心。一次错误标注可能导致模型性能下降或安全风险。客户会进行严格的验收测试。

2. 场景覆盖与行业知识：对自动驾驶、医疗影像、金融NLP等特定场景的理解深度，决定了能否交付高价值数据集。

3. 成本与效率：通过平台自动化、众包管理、规模化运营来降低成本。人海战术已被证明不可持续。

在专利维度，海天瑞声以50件处于行业中位数89件（数据来源：数据库）之下，在北京市3家同类企业中亦不突出。这反映出公司在纯研发输出上的密度一般，其竞争壁垒可能更多体现在客户关系、数据积累与工程经验上，而非单纯的技术专利数量。

五、护城河判断

技术壁垒：中等。50件专利反映的技术密度低于行业平均水平。其专利方向预计多集中于数据处理流程优化、特定场景标注方法等“应用性”创新，而非颠覆性底层技术（如自动标注算法、多模态对齐方法）。这意味着，其技术壁垒并非不可逾越。竞争对手通过复制工程流程、挖角少量核心人员即可在较短时间内实现追赶。
客户壁垒：较强。数字软件与工业服务环节，客户验证周期长（行业共识：通常为6-18个月，涉及POC测试、合规审核、数据安全协议签署），且一旦形成规模化的训练数据集合作，切换成本极高——新数据集无法与旧数据集对齐会破坏模型训练的连续性。海天瑞声与810家企业合作、累计完成数千个项目，已构建起较强的客户粘性。这是其核心护城河之一。
规模壁垒：较低。244人的团队规模在头部数据服务商中处于中等偏小。这决定了公司的研发和交付能力存在上限。虽然可以通过软件工具提升人效，但在承接大型、复杂、多模态项目时，可能面临交付周期和质量的挑战。毛利率50.17%并未转化为规模优势。
认定价值：中等。第二批（2020年）专精特新小巨人认定，意味着公司在2019-2020年期间就在细分领域具备了较强的技术、产品或服务能力。该认定在当前政策环境下，有助于获得税收减免（企业所得税优惠）、政府项目优先采购、科研经费补贴等。但考虑到公司已于2021年上市，融资渠道已拓宽，该认定的边际价值主要体现在品牌背书与ToG业务拓展上，而非解决生存问题。

六、风险与机会

行业风险：

1. AI技术迭代带来的模式消亡风险：随着AI模型（尤其是大模型）能力提升，零样本或少样本学习能力增强。对传统依赖于“大量人工标注”的数据服务需求可能被替代。一旦大厂实现“自主合成数据”（Synthetic Data）或通过自身生态流量完成数据闭环，对海天瑞声这类第三方数据服务商的依赖度将下降。

2. 数据合规与隐私风险：全球范围内对个人数据使用的限制日益严格（如欧盟GDPR、中国《数据安全法》）。海天瑞声的ToG业务（2025年业绩亮点）本质上是处理政府或公共服务领域的敏感数据，一旦出现数据泄露或违规使用，将面临法律与声誉的双重打击。其经营范围明确包含“职业中介活动”，意味着其部分数据采集依赖众包人员，也存在管理风险。

3. 竞争加剧与价格战风险：全国1578家同类企业中，既有Scale AI这样的国际独角兽，也有百度众测这样的平台型巨头，还有大量中小型标注公司。行业门槛低，导致恶意低价竞争时有发生，压缩利润空间。

公司风险：

1. 研发投入与创新不足：专利数量低于行业中位数，且公司上市后尚未披露大规模研发投入的具体数据。在数据服务行业，不进则退。若不能在数据自动化、合成数据等前沿技术上跟进，将失去对下游大客户的吸引力。

2. 团队规模与业务拓展的潜在矛盾：244人团队支撑“完成数千个定制化项目”的表述可能存在夸大或项目规模偏小。在ToG和具身智能（与觅蜂科技合作）这两个新方向，均需要大量数据科学家、项目管理人员和行业专家，现有团队规模是否足以支撑2025年业绩爆发式增长（一季度净利增20倍），值得怀疑。业绩增长的可持续性存疑。

机会窗口：

1. 具身智能数据蓝海：合作项目“与觅蜂科技合作推进物理AI数据的采集与治理”切中了具身智能产业的核心瓶颈——高质量训练数据极度匮乏。机器人需要面对真实物理世界进行感知、规划、操作，其数据采集与标注成本远高于文本和图像。海天瑞声在此领域布局，有望率先占位，享受早期市场红利。其规划“百亿小时级数据产能”的愿景（来源：企业简介）若实现，将构成极高壁垒。

2. ToG可信数据空间：业绩亮点中提及的“ToG可信数据空间业务”面临政策窗口期。政府正在推动公共数据的授权运营与开放共享，海天瑞声作为数据治理服务商，可承接政府数据“入表”、标准化、流通等工作。这要求公司既懂技术，又懂政务流程，且具备数据安全能力，符合小巨人企业的政策偏爱。若能成为多地政府的数据治理合作伙伴，将形成稳定的to G收入基本盘。

本研报基于企业数据库字段及公开资料整理，仅供产业研究参考，不构成投资建议、商业背书或专精特新申报结果判断。涉及未披露的客户、收入、利润、产能、良率、市场份额等，本文不作推断。