全文
回到企业研报阅读路径
企业与对标
从单篇研报进入企业档案、同地区样本、同产业样本和同批次归档。
英文入口
面向海外检索流量,连接英文摘要、英文企业档案和英文索引页。
专题延伸
按申报条件、材料一致性、产业链位置和知识产权继续阅读。
申报材料
把研报中的企业事实转为申请书、复核、审计和附件核验路径。
权威核验
外部链接用于核验政策通知、主体登记、知识产权和公开信用信息。
横向比较
上海市新一代信息技术样本共有 419 家,达而观信息科技(上海)有限公司适合放在省内同行、同批次和同链条三个口径中比较。
达而观信息科技(上海)有限公司处在电子信息与数字技术的数字软件与工业服务环节,全国同一位置样本为 1329 家。
专利数为 172 件,行业样本中位数为 81 件,行业分位约 78。
产业链上下游
数字软件与工业服务
相关企业
同省同行业
同城企业
同产业链位置
专精特新“小巨人”产业链深度研报:达而观信息科技(上海)有限公司
报告日期:2026年6月11日
一、企业速览
| 公司名 | 达而观信息科技(上海)有限公司(品牌名:达观数据) |
|---|---|
| 地区 | 上海市浦东新区 |
| 行业 | 电子信息与数字技术 / 智能文档处理与知识管理AI |
| 成立时间 | 2015-05-28 |
| 注册资本 | 5000万元 |
| 员工规模 | 173 人 |
| 专利总量 | 172 件 |
| 专精特新认定 | 2021年 第三批 |
| 上市状态 | 未上市 |
达观数据是一家专注于企业级智能文档处理与知识管理AI的软件服务商,位于“电子信息与数字技术”产业链的数字软件与工业服务环节。其核心定位是为企业客户提供基于大语言模型(LLM)和自然语言处理(NLP)技术的软件产品,解决海量非结构化文档的自动化处理与知识资产的智能化管理问题。
二、主营产品与产业链定位
1. 具体产品与服务
达观数据的主营业务并非电子信息设备或通信设备的硬件制造,而是围绕文本智能处理的软件解决方案。具体产品线覆盖:
- 企业文档管理:实现合同的自动审核、比对与归档。
- 研发知识管理:整合研发部门的设计文档、专利、技术报告,提供智能检索与问答。
- 制度管理:将企业制度文件结构化,实现合规性自动检查与员工智能问答。
- 合同管理:针对合同全生命周期(起草、审批、履约)进行智能化管控。
2. 产业链核心位置
在“电子信息与数字技术”这一庞大产业链中,达观数据处于“数据价值化”环节。其上游利用硬件厂商提供的算力基础设施(如GPU服务器、存储设备),将下游客户产生的原始非结构化数据(PDF、Word、邮件等)转化为结构化的、可被检索和计算的知识资产。
3. 产业链上下游关系
- 上游(基础层):
- 硬件:需要采购服务器(如华为、浪潮)、GPU(典型供应商:NVIDIA,国产替代如华为昇腾、海光信息)。
- 软件/云平台:依赖于云计算平台(阿里云、华为云、腾讯云)或操作系统(Linux)作为部署底座。
- 底层大模型(行业共识):公司自研“曹植”大模型,但在部分场景下,可能需接入其他基础大模型(如智谱AI的GLM、百度的文心一言)进行微调。
- 下游(应用层):
- 客户类型:主要为大型企业、政府机构。典型的客户集中在金融(银行、保险、证券)、政务(公文智能处理)、制造业(研发知识管理)、法律(案卷合同审查) 等需要处理大量文档的行业。
- 解决的问题:下游客户面临的核心痛点是文档处理效率低、知识沉淀困难、合规风险高。例如,中国某大型股份制银行的零售贷款合同审核,使用达观的系统后,审核时间从数小时缩短到分钟级别(典型应用场景)。
三、核心工序与技术依赖
达观数据作为一家软件企业,其核心研发与交付流程围绕“数据-模型-应用”展开。
1. 关键研发与交付工序(行业共识)
1. 数据采集与预处理(数据工程):从客户处收集海量PDF、扫描件等样本,进行OCR识别、版面分析、图像去噪。典型步骤:利用深度学习模型对文档进行“切分”,识别表格、页眉页脚、段落等元素。
2. 模型微调与训练(AI工程):在预训练的大语言模型基础上,使用特定行业的标注数据(如合同条款、医疗病例)进行指令微调。典型参数:微调的数据量通常在数千到数万条高质量标注数据;训练轮次(Epoch)通常设置为1-3轮以防止过拟合。
3. 知识库构建(RAG流程):将处理后的企业文档向量化,存储在向量数据库中(行业典型代表:Milvus、Pinecone或Elasticsearch)。当用户提问时,系统先在知识库中检索最相关的段落,再结合用户的query一同输入大模型,生成精准答案。这是当前解决LLM“幻觉”问题的标准技术路线。
4. 应用部署与集成:将训练好的模型封装成API接口或客户端软件,部署在客户的私有化服务器或云环境中。典型的交付模式包括:私有化部署(对数据安全要求高的金融、政务客户)、SaaS订阅。
2. 上游关键原材料/设备来源
| 材料/设备 | 典型供应商(国产) | 典型供应商(进口) | 国产化程度 |
|---|---|---|---|
| GPU芯片 | 华为昇腾(Ascend)系列、海光信息(DCU) | NVIDIA A100/H100/B200(行业共识) | 需适配,性能差距明显,但政策推动替代加速 |
| 向量数据库 | Zilliz(Milvus)、星环科技(Sophon Vector) | Pinecone、Weaviate(开源部分可自建) | 国内开源和商业产品成熟,国产化率高(行业共识) |
| 大模型基础底座 | 智谱AI(GLM)、百度(文心)、阿里巴巴(通义千问)、科大讯飞(星火) | OpenAI(GPT系列)、Meta(Llama)、Google(Gemini) | 国产大模型能力快速追赶,在垂直行业有应用优势(行业共识) |
3. 达观数据的定位
基于其172件专利和“文本智能处理”的主营记录,达观数据不涉足底层芯片或基础云服务制造,其核心竞争力在于应用层PaaS/SaaS的技术整合与行业解决方案。它像是一个“管道工”和“翻译官”,将底层的大模型能力、OCR能力和知识图谱技术,转化为符合特定行业要求的标准化软件产品。
四、竞争格局
1. 同类竞争对手列举
- 合合信息(INT SIG):国内OCR与文档处理领域的老牌劲旅,专注于商业数据(如企业征信、名片扫描)。规模更大,年营收已披露超过5亿元(公开财报)。其主要优势在于海量的企业数据库和B2B数据服务,而非纯粹的企业内部知识管理。
- 来也科技(Laiye):专注于RPA(机器人流程自动化)+AI。其文档处理能力更多作为RPA流程中的一个环节,与达观的“专注文本智能”有所不同。规模约千余人,估值更高。两者在“智能文档处理”场景存在交叉竞争(如发票报销、合同录入)。
- 语忆科技(Lucy):聚焦客户联络中心(客服)的软件即服务(SaaS)产品,主要利用自然语言处理(NLP)分析客服对话质量,与达观的“知识管理”赛道有部分重合,但场景更垂直。
2. 竞争维度
全国“数字软件与工业服务”环节同类型企业有1578家,竞争主要集中于:
- 场景深度:谁能真正解决行业问题(如银行的30页授信报告审批,法院的归档卷宗检索),而非提供通用工具。
- 私有化部署能力:金融、政务、军工等关键客户对数据安全要求极高,能否提供高性能、易维护的私有化部署解决方案是核心门槛。
- 模型性价比:使用不同大模型(如Llama开源模型 vs 国产商业模型)带来的计算成本和输出效果差异。
3. 专利维度分析
达观数据拥有172件专利,远超行业中位数(93件),属于行业第一梯队。这表明其在OCR、NLP、文档版面分析等核心技术上有较深的积累。相比之下,合合信息的专利数量估计也超过百件,而来也科技则更多聚焦于RPA过程专利。达观的专利优势体现在对文本底层构成要素的算法能力。
五、护城河判断
- 技术壁垒(良好):172件专利构成了基础的技术护城河,主要集中在文档智能处理、知识图谱构建、自然语言交互等方向。这使得后发竞争对手较难绕过其核心算法。但大模型时代的到来,一定程度上降低了模型训练的壁垒(大量的开源模型可用),但壁垒转向了高质量行业数据和数据工程能力。
- 客户壁垒(中等):数字软件与工业服务环节(尤其是面向大型企业的私有化部署)具有极高的客户粘性。客户验证周期长,从POC(概念验证)到最终签约通常需要6-12个月(行业共识)。一旦系统上线,大量的文档模板、知识库、审核规则都固化在系统中,替换成本极高。这构成了达观数据在金融、政务等重点行业的核心护城河。目前未见其公开披露客户名单,但“工人先锋号”荣誉暗示其在2B领域的市场地位受到官方认可。
- 规模壁垒(较弱):173人的团队规模,对于一家服务千余家大客户且要执行私有化部署与项目交付的公司而言,显得精干但偏少。这限制了其同时承接多个大型项目的能力,年营收天花板可能受限于交付团队规模。若要覆盖更多行业(如电力、医疗),需要显著扩充团队或依赖渠道合作伙伴。
- 认定价值:作为2021年第三批专精特新“小巨人”,在当时政策风向处于上升期时获得该资质,意味着它在技术创新和市场前景上获得了国家级认可。在当前(2026年)环境下,“小巨人”资质已成为企业获取政府订单(特别是政务智能化项目)的重要加分项,也是争取各类科技补贴和低息贷款的基础。达观数据获得“2025年国家潜在独角兽企业”和“2026年省级创新型企业总部”也与之相互印证。
六、风险与机会
- 行业风险:
1. 大模型“幻觉”问题:尽管RAG技术(检索增强生成)成为主流方案,但如何保证在金融、法律等高风险领域输出的100%准确性仍是巨大挑战。一起严重的“AI幻觉”导致合同误解事故,可能动摇整个智能文档处理赛道的信任基础。
2. 同质化竞争:随着各大基础大模型厂商(百度、阿里、科大讯飞)推出自己的文档处理工具,下游软件集成商的差异化空间被压缩。客户可能会直接使用云厂商的基础能力,而非采购达观这样的第三方软件。
3. 数据安全与合规风险:私有化部署模式虽能解决部分安全顾虑,但每部署一家新客户都需要进行复杂的合规审计(如银行的等保3级认证),这会拖慢扩张速度,并增加交付成本。
- 公司风险:
1. 财务信息不透明:营收、利润、客户名单等核心经营数据未披露,使得外部无法准确判断其实际经营状况和增长速度。对于投资人而言,这是最大的不确定因素。
2. 人力成本压力:作为一家173人的技术密集型公司,人力成本占总成本比例极高。如果市场融资环境收紧或大客户回款周期拉长,现金流将面临严峻考验。
3. 创始人依赖风险:公司高度的技术导向,可能意味着核心创始人的个人影响力决定了公司方向。若创始人出现变动,将影响公司战略的稳定性。
- 机会窗口:
1. 企业“数据资产化”趋势:国家推动数据作为生产要素,企业迫切需要将海量的非结构化数据(如合同、报告、图纸)盘活为可交易的“知识资产”。达观数据可以提供从“文档”到“知识”再到“资产”的必要工具链。
2. 行业AI需求爆发:在降本增效的驱动下,金融、医疗等行业对AI替代人力处理大量重复性文档工作的需求进入爆发的起点。特别是“AI+法律”场景,随着法律科技(LegalTech)在国内的兴起,达观作为合同智能审查的领先者,有望获取巨大的结构性红利。
本研报基于企业数据库字段及公开资料整理,仅供产业研究参考,不构成投资建议、商业背书或专精特新申报结果判断。涉及未披露的客户、收入、利润、产能、良率、市场份额等,本文不作推断。