开普云:发行人及保荐机构审核中心意见落实函回复

来源:巨灵信息 2019-11-25 00:00:00
关注证券之星官方微博:
关于开普云信息科技股份有限公司
    
    首次公开发行股票并在科创板上市的
    
    审核中心意见落实函的回复
    
    保荐机构(主承销商)
    
    二零一九年十一月
    
    上海证券交易所:
    
    根据贵所2019年11月19日下发的《关于开普云信息科技股份有限公司首次公开发行股票并在科创板上市的审核中心意见落实函》(上证科审(审核)〔2019〕722号)(以下简称“意见落实函”)的要求,开普云信息科技股份有限公司(以下简称“发行人”、“公司”、“开普云”)会同保荐机构国金证券股份有限公司(以下简称“保荐机构”),本着勤勉尽责、诚实守信的原则,就意见落实函所提问题逐条进行了认真核查和讨论,并完成了《关于开普云信息科技股份有限公司首次公开发行股票并在科创板上市的审核中心意见落实函的回复》(以下简称“意见落实函回复”),同时按照意见落实函的要求对《开普云信息科技股份有限公司首次公开发行股票并在科创板上市招股说明书(上会稿)》(以下简称“招股说明书”)等相关文件进行了修订和补充。
    
    如无特殊说明,意见落实函回复中简称与招股说明书中简称具有相同含义,涉及对申请文件修改的内容已用楷体加粗标明。
    
    黑体加粗 意见落实函所列问题
    
    宋体 意见落实函所列问题的回复
    
    楷体加粗 涉及修改招股说明书等申请文件的内容
    
    问题1
    
    请发行人按照《公开发行证券的公司信息披露内容与格式准则第41号——科创板公司招股说明书》的规定,全面梳理?重大事项提示?内容,突出重大性,增强针对性,并补充以下事项:报告期内公司主要业务和60%以上的收入来自于为党政机关、企业和媒体提供互联网内容服务平台的建设、运维,并非云计算等意义上的?云服务?。
    
    回复:
    
    发行人在招股说明书“重大事项提示”之“一、特别风险提示”和“第四节风险因素”之“一、经营风险”中修改披露如下:
    
    (二)大数据服务收入占比不高及应用未能拓展的风险
    
    云计算按照服务模式可以分为三种类型,分别为基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。公司的大数据服务是构建在阿里云等IaaS平台之上的SaaS服务。2016年、2017年、2018年和2019年1-6月,大数据服务收入占公司营业收入的比例分别为24.47%、29.03%、25.69%和41.52%,占公司营业收入大部分比例的互联网内容服务平台建设及运维业务不属于云计
    
    算服务。
    
    公司大数据服务的主要应用集中于政府门户网站和政务新媒体内容监测领域,应用领域相对单一,且公司目前在该领域积累了较大规模的客户基数,已经占据较高的市场份额,新增客户数量放缓。2016年、2017年、2018年和2019年1-6月,大数据服务业务新增客户数量分别为471个、409个、223个和65个;2017年和2018年的收入增速分别为75.74%和28.81%,呈下降态势。公司如果不能有效拓展大数据服务的应用领域,开发出契合客户需求的更为丰富的大数据服务产品,大数据服务业务将面临新增客户数量和收入增速放缓,甚至收入下滑的风险。
    
    问题2
    
    请发行人结合与同行业可比公司的对比情况,以及公司主要收入来自于为党政机关、企业和媒体提供互联网内容服务平台的建设、运维等情况,进一步说明公司核心技术先进性以及招股说明书中?技术水平处于行业领先地位??在‘互联网+政务’领域取得了较为领先的市场地位?等表述是否有客观依据,如无,请删除。请保荐机构核查并发表明确意见。
    
    回复:
    
    (一)进一步说明公司核心技术先进性
    
    1、大规模多形态高性能采集技术
    
    (1)该技术具有较为强大的采集能力
    
    基于该技术,发行人大数据服务业务实现了全国政府网站全面、长期、稳定、高效采集,在最快5分钟、最慢两小时的周期内完成全国政府网站首页和重要栏目的更新检查和网页收录,在24小时的周期内完成全国政府网站的更新检查和网页收录,每天采集网页超过2亿次,总采集有效网页链接超过200亿条,为大规模用户提供了实时监测和预警服务。
    
    (2)与同行业竞争对手相比,该技术在政务内容监测及搜索领域具有先进性
    
    在政务内容监测及搜索领域,发行人从公开信息尚未获知同行业其他公司具备类似技术。竞争对手若要构建此技术,最便捷的方式为采用开源爬虫系统。目前,开源的大型爬虫技术最具代表性的为Nutch。发行人爬虫技术和Nutch爬虫技术的指标对比如下:
    
          技术指标                   发行人爬虫技术             Nutch爬虫技术
                                大规模采集,目前已经支持百 大规模采集,通过扩展节点可
     采集规模                   亿级网页采集,可以扩展到千 以采集千亿级网页
                                亿级
                                5分钟到2小时的周期内完成   Nutch基于hadoop技术实现,
     实时性                     全国政府网站首页和重要栏   无法实现大规模网页的实时
                                目的更新检查和网页收录     性采集,采集周期为一天
          技术指标                  发行人爬虫技术             Nutch爬虫技术
                                自动识别静态网页和动态网   默认只能采集静态网页,需要
     多形态                     页,有效降低动态网页采集频 开发人员识别是否是动态网
                                次、控制采集成本           页并通过配置采集模板实现
                                                           动态网页采集
                                通过自有专利技术实现DOM  对网页源码进行指纹提取,通
                                剪枝,结  合 公 司 改 进 的  过指纹匹配判断网页是否相
     网页相似性判断             Simhash算法对海量网页进行  似,准确度比较低(目前网页
                                相似性判断,执行速度快,准 大多数为模板生成,对指纹提
                                确度高                     取带来干扰)
     网页正文自动提取           基于公司专利技术实现网页   无,所有采集的网页仅仅存储
                                正文自动抽取,准确率高     网页源码
                                效率高。采集节点和爬虫服务 效率低。节点间通信和网页消
                                器通过专用技术进行高效协   重、链接消重均基于hadoop
     采集效率                   同工作,单机每天可以采集   技术,结构复杂,执行效率低。
                                200万网页,通过增加采集节  单机每天采集网页小于100
                                点可以线性增加采集速度。   万,且增加采集节点无法线性
                                                           提升采集速度。
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得4项发明专利,该技术具有先进性。
    
    2、基于平衡语料库的文本智能分析技术
    
    (1)该技术具有较为优越的性能
    
    平衡语料库自动构建技术,极大地降低了人工标注的成本,可以在较短的时间内覆盖较大规模的文本素材,该素材的规模在较高程度上影响了机器学习算法的精度。目前,发行人平衡语料库覆盖了各行各业出版图书、电子报纸、主流媒体新闻资讯,达千亿字规模的文本素材,训练输出结果包括海量的Bigram/Trigram、依存语法关系,且该等内容的规模仍处在快速增长中,为文本智能分析奠定了坚实的数据基础。目前,基于无监督方式为主训练的NGram计算,已经接近人工标注的精度;依存关系计算结果的可信度达到80%以上。
    
    基于平衡语料库的新词发现技术,提高了中文分词的准确性,使中文分词在开放语境达到了接近98%的准确率。基于平衡语料库的敏感规则自动发现技术,提升了新敏感规则发现的及时性,降低了内容安全监测的漏报率以及人工收集敏感规则的成本。基于平衡语料库的关键词抽取技术,提升了关键词准确度,相当大程度上避免了高频常用词语被误报为关键词的情况,提升了用户体验。
    
    (2)与同行业竞争对手相比,该技术在政务内容监测及搜索领域具有先进性
    
    由于平衡语料库建设投入较大、周期较长、并不直接产生经济效益,在政务内容监测领域,发行人从公开信息尚未获知同行业其他公司构建了大规模自主平衡语料库。目前,国内比较知名的主要中文语料库和发行人的平衡语料库对比情况如下:
    
        名称      发布   语料库规           内容                 用途          获取
                  时间      模                                                 方式
     北京大学语  2000    约2,600万  1998、2004年人民日报   用于中文分词        商业
     料库        年      字         全年文章人工分词                           授权
     清华大学依  2013    约20,000   人工标注的两万句句子   用于句子理解、智能
     存句法语料  年      句         成分依存关系库         问答、文本查错      开源
     库
     腾讯词向量  2018    800万词    基于腾讯新闻训练的词   用于深度学习词嵌
     模型        年      汇,数千   向量                   入                  开源
                         亿字
     哈工大                                                基于谷歌BERT预训
     BERT增强   2019    54亿词     覆盖百科、问答、通用   练模型的深度学习    开源
     预训练模型  年                 新闻的BERT模型        和文本分析,如句子
                                                           分类、智能问答
                 未公               覆盖7万部正式出版物、  中文分词、关键词抽
     公司平衡语  开发    近千亿字   1,400余种电子报、300   取、文本查错、搜索  公司
     料库        布                 万篇高质量新闻和政府   词纠错、智能问答、  自用
                                    稿件                   新词发现等
    
    
    发行人以平衡语料库为基础,研发了新词、敏感词自动发现以及关键词自动抽取技术,相比经典算法实现了比较好的抽取效果。以中国政府网一篇文章为例(http://www.gov.cn/xinwen/2019-07/30/content_5417355.htm),发行人基于平衡语料库的关键词抽取效果明显好于经典TF·IDF算法,具体关键词抽取结果对比如下:
    
           算法                              关键词抽取结果
     经典TF·IDF算法   创新,我国,今年,经济,工业,中国,研发,领域
     发行人算法        新业态,关键领域,新产业,5G网络,世界工厂,动力电池,商用
                       元年,商用牌照
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得2项发明专利和5项软件著作权,该技术具有先进性。
    
    3、大规模互联网敏感信息实时监测技术
    
    (1)该技术具有较为优越的性能
    
    1)监测准确率高
    
    目前,对于政务领域的严重错误信息,发行人敏感信息、负面信息、错别字的监测准确率分别在90%、90%、80%以上,达到了较高的实用水平。
    
    2)监测效率高、时效性强
    
    发行人每天采集数亿网页内容,监测技术需要具备较高的执行效率,以便为用户提供及时的监测和预警服务。单台8核16G内存服务器的敏感信息扫描速度达到50万字/秒,单台16核32G的内存服务器的错别字扫描速度达到10万字/秒,单台8核16G内存16G*2显卡服务器负面信息扫描速度达到10万字/秒,能够满足大规模网页文本实时监测的要求。
    
    (2)与同行业竞争对手相比,该技术在政务内容监测领域具有先进性
    
    超级鹰眼网站诊断监测系统是泰得科技自主研发的“网站智能监测和分析平台”,该平台采用大数据分析技术+人工复核为辅助的方式对政府网站可用性和内容建设情况进行持续地、实时地全景监测和分析,具备错别字诊断、敏感词诊断功能。
    
    泰得科技和发行人敏感信息监测技术指标对比如下:
    
                 技术指标                   泰得科技                发行人
                  错别字                有                基于公司专利技术,采用深度
                                                          学习等先进技术构建
                  敏感词                有                有
     功能         句子负面信息检测     无                有
                  外链/暗链检测         有                有
                  隐私/机密信息         无                有
                  广告                  无                有
                  DNS过期              无                有
                                                          政务领域的内容监测应用:
                  准确率                未知              错别字>80%
     性能                                                 敏感词>90%
                                                          句子负面信息>90%
                  稳定性                未知              长期高并发稳定运行
                 技术指标                   泰得科技                发行人
                  处理速度              未知              >10万字/秒
                  发明专利              无                有
                                                          基于平衡语料库的智能文本
                                                          分析技术;
                                                          高效的文本敏感信息识别技
     技术         智能文本分析技术     未知              术;
                                                          基于局部上下文特征、依存关
                                                          系与BERT验证的错别字监测
                                                          技术;
                                                          句子负面信息发现技术;
                  服务客户              较少              众多省级政府、国务院组成部
                                                          门和直属机构、地级政府
                  网页规模              <10亿(从客户规模 100亿级
     数据规模                           推断)
                  语料库规模            未知              近千亿字
                  敏感词规模            未知              >40,000个词
                  负面句子训练规模      未知              正负面句子>1,000万句
    
    
    注:经查询国家知识产权局“中国及多国专利审查信息查询”系统,未发现泰得科技及其子公司已获得发明专利。
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得1项发明专利和4项软件著作权,该技术具有先进性。
    
    4、政务领域智能搜索技术
    
    (1)该技术具有较为优越的性能
    
    1)构建面向目标网站的语义模型,有效提升用户搜索体验
    
    针对目标网站进行语义分析训练,可以有效解决行业特定词汇、特殊句子成分搭配关系给搜索造成的干扰,有效提升用户搜索体验。如在监狱的搜索应用中,“狱警”一词,在监狱行业是常用语,在其他政府网站则较为少见。中文分词词典事先没有收录“狱警”一词,导致正文中的“狱警”会分为“狱”和“警”两个字索引。在搜索时输入“狱警”,自动纠错功能可能把该词纠正为常用词“预警”,则无法为用户返回恰当的搜索结果。
    
    2)应用自然语言处理和深度学习技术,全方位提升搜索智能化水平
    
    云搜索智能化水平体现在能够自动判断用户输入字符的组合关系,结合用户使用场景做出最佳搜索决策;对于用户输入的口语化词汇,能够自动扩展查询同义词或官方用语;自动分析用户群体搜索行为,根据大多数用户输入和点击行为的关联关系,为当前用户提供最佳搜索结果;有效识别各种输入错误,自动帮助用户搜索最可能的正确词;为用户返回搜索结果的同时,也提供相关文章智能推荐等。
    
    (2)与同行业竞争对手相比,该技术在政务内容搜索领域具有先进性
    
    拓尔思是国内较早从事政务和媒体垂直搜索的企业,其搜索引擎产品“TRSHybase”目前也是该领域市场占有率较高的产品。发行人搜索引擎起步相对较晚,近年来依托平衡语料库,引入自然语言处理等先进技术,提供了更多智能化功能,有效提升了用户在政务领域的搜索体验,产品具有较强的竞争力。TRS Hybase和发行人云搜索产品的技术指标对比如下:
    
          技术指标               TRSHybase                  发行人云搜索
        通用语言模型                未知                  有,基于平衡语料库
     针对网站自动训练语             未知             有,基于公司智能文本分析技术
           言模型
          索引分词       支持字、词混合,可以在召回  智能分词,较高查全率,更高的
                           率和准确度之间自由选择                准确度
          分类搜索                   有                           有
          数据采集       文件批量导入,数据库对接,  爬虫,CMS接口,数据精灵可视
                                  ETL工具                     化ETL工具
     智能短语识别和短语             未知                         支持
            搜索
          用户画像             支持,算法未知        支持,结合用户协作推荐和基于
                                                               内容的推荐
          场景搜索              通过应用实现                     支持
      智能query parser技              未知                         支持
             术
                                                      有,基于公司“大规模互联网敏
     全网敏感词禁搜功能        支持配置禁搜词        感信息实时监测技术”,敏感词
                                                              禁搜功能全面
          文档消重             基于关键词指纹           基于分布式Simhash技术
                                                      有,基于公司“大规模互联网敏
          搜索纠错                   有              感信息实时监测技术”中的错别
                                                               字检测技术
          权限管理       权限控制、物理隔离、逻辑隔         细粒度权限控制
                                     离
          技术指标               TRSHybase                  发行人云搜索
          安全管理                  未知             IP限制,敏感词禁搜功能,搜索
                                                                次数限制
          SaaS服务                   无                    提供SaaS搜索服务
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得1项发明专利和2项软件著作权,该技术具有先进性。
    
    5、集约化环境下数字内容全生命周期管理技术
    
    (1)该技术具有较为优越的性能
    
    1)海量异构数据和应用服务的一体化管理能力
    
    该技术实现了跨层级、跨部门、跨系统海量多形态异构数据的统一采集、存储、分析、交换和安全审计的全生命周期管理,为集约化环境下互联网内容服务平台的建设奠定坚实的数据管理技术基础。
    
    2)基于微服务架构的开放和弹性伸缩能力
    
    该技术一方面支持系列标准协议和接口,实现内容服务平台和上层内容应用的分离,简化了上层内容应用开发和数据迁移的技术门槛,扩大了内容管理的应用生态;另一方面基于微服务架构和容器技术部署,可以实现系统秒级扩展,有效提升系统的可扩展性、稳定性和可靠性。
    
    (2)与同行业竞争对手相比,该技术在互联网内容服务领域具有先进性
    
    数字内容管理是一个面向非结构数据的全生命周期的管理技术,由于缺乏国际通用标准,技术体系较为分散,国际上主要竞争对手为Oralce、IBM、Mircosoft,国内主要竞争对手为拓尔思和南京大汉,其技术指标对比具体如下:
    
                                拓尔思                 Oracle的     Microsoft的     IBM的
     技术指标       公司         Wcm     南京大汉    Webcenter    SharePoint   WebSphere
                                                                    Portal       Portal
                接口、批处理、 接口、批处 接口、批处  接口、批处    接口、批处   接口、批处
     资源汇聚   ETL、桌面端自  理、ETL    理、ETL   理、OCR识别  理、OCR识别  理、OCR识
                   动同步                                                            别
     元数据管   支持,并自动提    支持       支持         支持          支持         支持
        理           取
     多维度资       支持         支持       支持        不支持        不支持       不支持
      源分类
                                拓尔思                 Oracle的     Microsoft的     IBM的
     技术指标       公司         Wcm     南京大汉    Webcenter    SharePoint   WebSphere
                                                                    Portal       Portal
     分布式存       支持         支持       支持         支持          支持         支持
        储
     存储消重       支持         未知       未知         未知          未知         未知
     结构化数       支持         支持       未知         支持          支持         支持
      据提取
                 http/https、                            http、        http、        http、
     协议支持    WebDaV、     Http、      http、     WebDaV、    WebDaV、   WebDaV、
               CIMS、CIFS、   RESTFull   RESTFull     CIMS、       CIMS、      CIMS、
                  RESTFull                           RESTFull      RESTFull     RESTFull
     多渠道发   Web、微博、微  Web、微   Web、微
        布      信、头条号、人  博、微信   博、微信       Web          Web         Web
                    民号
     静态发布    2,000网页/分      未知       未知      无静态发布    无静态发布   无静态发布
       性能          钟
     权限控制   目录级、内容级   栏目级     栏目级    目录级、内容  目录级、内容  目录级、内
                                                          级            级          容级
     审计追踪       支持         支持       支持         支持          支持         支持
     微服务架       支持         未知       未知         未知          未知         未知
        构
     单点登录       支持         支持       支持         支持          支持         支持
     发明专利        有           有         无           有            有        未查询到
    
    
    注:经查询国家知识产权局“中国及多国专利审查信息查询”系统,未发现南京大汉已获得发明专利。
    
    此外,从软件产品在具体应用场景的性能表现来看,发行人技术水平不低于政务服务领域同行业主要竞争对手,具体如下表所示:
    
             指标                    公司                     拓尔思                  南京大汉                  科创信息                   南威软件
                           在管理亿级数据的情况下,
                           系统的一般查询服务响应时
                           间在3秒以内;支撑PB级的
                           数据存储;管理后台可以支
                           撑20,000个在线用户的业务                                                     1、交互类业务
                           请求;前端20,000并发用户                                                     平均响应时间:1-3(秒)
                           相应时间小于3秒;单篇文                                                     峰值响应时间:5-10(秒)
                           章发布时间小于1秒(数据                            支持TB级数据,前端1,000  2、查询类业务               1、多用户接入及具有海量
                           来源:西安市政府智能型集   支持PB级数据;前端1,000  并发用户响应时间小3秒;简单查询平均响应时间:1-5     数据处理能力,至少支持
                           约化门户网站平台建设项目   并发用户响应时间小3秒;后端并发   200 并发用户平  (秒)                      3,000 以上用户接入;实现
                           公开招标文件);            后端并发 200 并发用户平  均相应时间小于 3 秒;单  复杂查询平均响应时间:6-15  数据运行达到1亿条以上;
                           一体化政务服务管理平台,   均响应时间小于 3 秒;单  篇文章发布时间小于 1 秒  (秒)                      2、多用户并发处理技术,
     性能                  需要满足支持正常10,000个   篇文章发布时间小于 1 秒  (数据来源:江西省级电   极限数据查询时间:最大样本  在多用户并发环境下,单用
                           用户同时在线的性能要求;   (数据来源:天津市政府   子政务外网IPV6互联网区   量时数据查询时间不超过3分   户登录时间≤0.5s、退出时
                           当峰值 3,000 个用户并发请  网站集约化平台开发建设   和省政府网站集约化平台   钟                          间≤0.1s。
                           求同一个中等复杂度的事务   项目竞争性磋商文件)     改造项目竞争性磋商文     3、统计分析类业务           (数据来源:贵阳市政府数
                           时,响应时间不超过2秒;政                            件)                     一般统计时间:不超过30秒    据开放平台提升改造工程
                           务服务门户,需要满足支持                                                    (数据来源:湖南省生态环境  项目公开招标文件)
                           正常50,000个用户同时在线                                                     厅湖南省综合政务服务平台
                           的性能要求,当峰值   20,000                                                   项目竞争性磋商文件)
                           个用户并发请求同一个中等
                           复杂度的事务时,响应时间
                           不超过2秒(数据来源:东
                           莞市一体化政务服务平台项
                           目公开招标文件)
    
    
    8-1-12
    
             指标                    公司                     拓尔思                  南京大汉                  科创信息                   南威软件
                           系统通过微服务框架的故障   可伸缩、高可用架构,有
                           隔离技术、集群和负载均衡   效解决信息资源调用高并   平均年故障时间小于12小
                           技术,系统支持99.99%可用   发服务的一致性、高性能、时;平均故障修复时间小   软件的缺陷<0.2%、故障率    平均年故障时间小于12小
                           性,年平均故障时间小于  4  高可用、敏捷等痛点,年   于60分钟(数据来源:江   <0.5%,平均年故障时间<1    时;平均故障修复时间小于
     可用性                小时,平均故障修复时间小  平均故障时间小于4小时,西省级电子政务外网IPV6    天,平均故障修复时间<30分  60分钟(数据来源:贵阳市
                           于30分钟(数据来源:西安   平均故障修复时间小于30   互联网区和省政府网站集   钟(数据来源:湖南省生态环  政府数据开放平台提升改
                           市政府智能型集约化门户网   分钟(数据来源:天津市   约化平台改造项目竞争性   境厅湖南省综合政务服务平    造工程项目公开招标文件)
                           站平台建设项目公开招标文   政府网站集约化平台开发   磋商文件)               台项目竞争性磋商文件)
                           件)                       建设项目竞争性磋商文
                                                      件)
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得2项发明专利,正在申请1项发明专利已取得《授予发明专利权通知书》,获得了10项软件著作权,该技术具有先进性。
    
    8-1-13
    
    6、一体化在线政务服务平台的异构数据交换关键技术
    
    (1)该技术具有较为优越的性能
    
    1)基于版式智能文档的数据交换技术先进性
    
    基于版式智能文档的数据交换技术作为一种人机交互技术,在保留了文档交互中的用户使用习惯和操作便捷性的前提下,解决了文档流转中数据难以被有效利用的问题,并提供了所交换的结构化数据和非结构化文档的数字签名和加盖电子印章的能力,为实现“一网通办”提供技术支撑。
    
    2)多源异构数据交汇技术先进性
    
    多源异构数据交汇技术针对B/S架构的应用系统,在不需要修改原系统代码、不需要访问原系统数据库、不需要对接原开发厂商的前提下,针对其应用方式快
    
    速生成标准访问接口,实现数据的快速采集并统一汇聚至新平台,打通了数据在
    
    异构平台之间的流转通道。该技术大幅降低了原有系统数据的采集难度,低成本
    
    聚合第三方服务,实现了数据导流的可追溯、可认证、可管控,高效快速的实现
    
    一体化政务服务中的各类服务集成。
    
    (2)与同行业竞争对手相比,该技术在政务服务领域具有先进性
    
    基于版式智能文档的交换技术,是互联网政务服务中的关键支撑技术。目前提供政务在线服务的大部分厂商如南威软件、科创信息等采用Web表单方式来实现前端和后端的数据交换。智能文档与Web表单技术指标对比如下:
    
              项目                   Web 表单                  发行人智能文档
        是否仿真纸面效果      Web展示形式,精细度低    完全可仿真纸面效果,符合使用习
                                                                     惯
            文档格式                  HTML                   Xforms版式文档
           展示与逻辑                 紧耦合                   展示与逻辑分离
            数据存储                不存储数据          版式和数据可合并或可分离存储
            安全控制                  页面级                文档、页面、字段级别
            数字签名              仅可对内容签名        对版式和内容同步签名,防止版式
                                                                    修改
          数据采集方式               在线采集                  在线和离线采集
          数据校验方式               在线校验                 在线和离线可校验
           设计与应用         根据不同的终端多次设计       一次设计多终端发布使用
            归档情况                 不能归档                版式及数据同步归档
              项目                   Web 表单                  发行人智能文档
           设计与输出             设计和输出分离               设计即打印输出
         文档与数据应用      文档系统和数据管理系统分   文档流转即数据交换,数据一次录
                                 离,数据重复录入               入多应用使用
           应用复杂度           需要前端工程师完成      初级页面设计人员均可设计开发
            格式转换           HTML,其他格式需定制    可自动转换成HTML、PDF、Word
    
    
    关于多源异构数据交汇技术,根据公开信息,国内除发行人外,北京大学和北京因特睿软件有限公司产学研合作的“云-端融合系统的资源反射机制及高效互操作技术”(以下简称“因特睿技术”)也具备多源异构数据交汇技术。二者技术指标对比如下:
    
         项目                 发行人技术                       因特睿技术
     技术构成      开发平台、运行平台、管理平台      运行平台、生成平台、管理平台
     接口规则      基于XML技术,少量场合需要一些动 Java程序语言实现
                   态脚本语言
                   1、基于ElectronJS构建开发界面,使  1、基于eclipseRCP技术,使用SWT
                   用socks代理捕捉HTTP请求,跨平台  技术通过JNI调用本地浏览器,支持
                   支持windows、Linux、macOS,轻量  windows系统,资源占用率较高,推
     开发平台      级桌面应用,资源占用率低,2核4G  荐配置4核16G以上的PC机
                   内存PC机可流畅运行               2、开发平台对接口开发人员要求较
                   2、开发平台对接口开发人员技术要   高,需要掌握java编程技术,需要掌
                   求低,掌握HTML知识可流畅使用    握eclipse开发环境
                   1、基于静态的XML接口模板和常见  1、基于java语言动态编译技术,对
                   脚本语言,运行时无需浏览器,通过  编译的代码需要通过classloader动态
                   HttpClient 可 模 拟 各 种 复 杂  加载代码,内存开销大。
                   HTTP/HTTPS请求,内存占用小。    2、用户请求固定在一个节点,无法
     运行平台      2、运行平台可通过负载均衡技术,   自动切换到其他节点,因此实际上无
                   将前端用户请求分发到多个并行运    法实现负载均衡,只能手工去划分不
                   行的集群节点,用户会话自动切换到  同接口到不同服务器,管理配置复
                   相应服务器节点,从而实现弹性扩    杂。
                   容。
                   基于B/S架构实现,基于NodeJs开发, 基于B/S架构实现,基于Java开发,
     管理平台      支持windows、linux、macOS等多种   支持windows、linux、macOS等多种
                   操作系统                          操作系统
                                                     1、人员成本高,需要掌握java编程
                   1、人员成本低,只需要掌握html     技术
     接口开发成    2、操作简便,记录操作人员web访问  2、开发平台可生成一些java类模
     本            历史,自动生成接口                板,需要开发人员在eclipse环境集成
                                                     的浏览器中去分析网页请求,根据请
                                                     求参数去修改java类模板,操作复杂
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得3项发明专利,正在申请1项发明专利,获得了5项软件著作权,该技术具有先进性。
    
    (二)招股说明书中?技术水平处于行业领先地位??在‘互联网+政务’领域取得了较为领先的市场地位?等表述的客观依据
    
    1、招股说明书中“技术水平处于行业领先地位”表述的客观依据
    
    发行人核心技术先进性的客观依据详见本题“(一)进一步说明公司核心技术先进性”的回复内容。
    
    考虑信息披露的审慎性,发行人将招股说明书中“技术水平处于行业领先地位”修改为“技术水平在政务服务领域具有先进性”。
    
    2、招股说明书中“在‘互联网+政务’领域取得了较为领先的市场地位”表述的客观依据
    
    (1)发行人在互联网内容服务平台建设和政府网站内容监测领域取得了较为领先的市场地位
    
    报告期内,发行人互联网内容服务平台建设业务的客户包括中共中央纪律检查委员会、最高人民检察院等党和国家机构,累计20%左右的省级政府、国务院组成部门和直属机构;大数据服务累计覆盖60%以上的省级政府、40%以上的国务院组成部门和直属机构、40%以上的地级政府。
    
    其中,政府网站集约化平台建设是发行人互联网内容服务平台建设业务的代表性领域,发行人在该领域取得了较为领先的市场地位。《政府网站集约化试点工作方案》(国办函〔2018〕71号),确定10省(区、市)1市(北京、吉林、安徽、山东、湖北、湖南、广东、广西、重庆、贵州和西藏自治区拉萨市)作为集约化试点地区,要求其2019年12月底前完成政府网站集约化工作。经查询全国主要政府采购公示网站,10省(区、市)1市中7省(区、市)1市(本级)发布了政府网站集约化建设中标情况信息。其中,发行人中标3省(区、市)1市的政府网站集约化建设,中标数量排名第一;发行人中标金额为9,250.90万元,中标金额排名第一。
    
    截至目前,发行人大数据服务已经覆盖全国7,232家政府网站,占全国政府网站数量比例为49.60%,在政府网站内容监测领域取得了领先的市场地位。
    
    (2)参与多项国家级、省级标准规范的制定,并获得多项认可
    
    发行人参与了国家标准《XML在电子政务中的应用指南》(GB/Z19669-2005)的制定,参与了国务院办公厅制定的《政府网站发展指引》(国办发〔2017〕47号)的课题研究工作,参与了北京市、海南省、湖南省、广州市政府网站集约化相关标准规范的制定,是国务院办公厅第一次全国政府网站普查的平台建设和技术支撑单位。
    
    基于发行人大数据服务平台采集的全国政府网站数据的全面、准确和及时性,发行人相关数据为中国互联网信息中心(CNNIC)牵头组织撰写的《第42次中
    
    国互联网络发展状况统计报告》、《第43次中国互联网络发展状况统计报告》,清
    
    华大学发布的《2018 年中国政府网站绩效评估报告》所引用;大数据服务平台
    
    被广东省大数据协会、广东软件行业协会评为 2019 年广东省优秀大数据案例
    
    TOP30。
    
    发行人曾获得国家科学技术部等多部门联合颁发的《国家重点新产品》证书,广东省科学技术奖二等奖和东莞市科学技术进步奖一、二、三等奖;先后承担或参与了10余项国家级或省部级基金项目;获得计算机软件著作权200项;取得发明专利10项,1项发明专利申请取得《授予发明专利权通知书》,1项发明专利申请进入实质性审核阶段。此外,发行人自2002年至今连续17年(子公司北京开普自2004年至今连续15年)通过《高新技术企业》认证,自2016年至今连续通过了最高级别的软件能力成熟度模型集成CMMI5评估,并取得了质量管理体系(GB/T19001-2016/ISO9001:2015)、信息技术服务管理体系(ISO/IEC20000-1:2011)、信息安全管理体系(GB/T 22080-2016/ISO/IEC 27001:2013)、知识产权管理体系(GB/T29490-2013)、信息技术服务运行维护标准符合性认证(ITSS-YW-3-440020190685)成熟度叁级等认证,是中国电子工业标准化技术协会信息技术应用创新工作委员会会员单位。
    
    综上所述,发行人在互联网内容服务平台建设和政府网站内容监测领域取得较为领先的市场地位具有客观依据。考虑信息披露的审慎性,发行人将招股说明书中“在‘互联网+政务’领域取得了较为领先的市场地位”的表述修改为“在互联网内容服务平台建设和政府网站内容监测领域取得了较为领先的市场地位”。
    
    (三)核查情况及核查意见
    
    1、核查情况
    
    保荐机构针对上述事项,履行了以下核查程序:
    
    (1)访谈发行人实际控制人、核心技术人员,查阅发行人产品说明书、同行业公司官方网站等公开信息以及行业相关技术资料,了解发行人核心技术的先进性;
    
    (2)访谈发行人实际控制人、核心技术人员,取得发行人销售明细以及销售合同,查询全国主要政府采购公示网站并统计试点省市政府网站集约化建设的中标单位,查阅了发行人参与的标准规范和获得的奖项认可,核查发行人技术和市场地位表述的客观依据。
    
    2、核查意见
    
    经核查,保荐机构认为:
    
    发行人核心技术在政务服务领域具有先进性,发行人在互联网内容服务平台建设和政府网站内容监测领域取得了较为领先的市场地位。
    
    问题3
    
    请发行人按照互联网内容服务平台建设、大数据服务、运维服务的类别,进一步对收入构成的披露进行修改完善。
    
    回复:
    
    发行人已经按照互联网内容服务平台建设、大数据服务、运维服务的类别,对首次公开发行股票并在科创板上市申请文件涉及的收入构成的披露进行修改完善,将“互联网内容服务平台业务”修改为“互联网内容服务平台建设业务”,将“大数据服务平台业务”修改为“大数据服务业务”。
    
    (本页无正文,为《开普云信息科技股份有限公司关于的回复》之盖章页)
    
    开普云信息科技股份有限公司
    
    年 月 日
    
    (本页无正文,为《国金证券股份有限公司关于的回复》之签章页)
    
     保荐代表人:
    
    
    郭圣宇 王学霖
    
    国金证券股份有限公司
    
    年 月 日
    
    国金证券股份有限公司董事长声明
    
    本人已认真阅读关于开普云信息科技股份有限公司首次公开发行股票并在科创板上市审核中心意见落实函的回复的全部内容,了解报告涉及问题的核查过程、本公司的内核和风险控制流程,确认本公司按照勤勉尽责原则履行核查程序,审核中心意见落实函的回复不存在虚假记载、误导性陈述或者重大遗漏,并对上述文件的真实性、准确性、完整性、及时性承担相应法律责任。
    
       董事长:
    
    
    冉 云
    
    国金证券股份有限公司
    
    年 月 日
    
    关于开普云信息科技股份有限公司
    
    首次公开发行股票并在科创板上市的
    
    审核中心意见落实函的回复
    
    保荐机构(主承销商)
    
    二零一九年十一月
    
    上海证券交易所:
    
    根据贵所2019年11月19日下发的《关于开普云信息科技股份有限公司首次公开发行股票并在科创板上市的审核中心意见落实函》(上证科审(审核)〔2019〕722号)(以下简称“意见落实函”)的要求,开普云信息科技股份有限公司(以下简称“发行人”、“公司”、“开普云”)会同保荐机构国金证券股份有限公司(以下简称“保荐机构”),本着勤勉尽责、诚实守信的原则,就意见落实函所提问题逐条进行了认真核查和讨论,并完成了《关于开普云信息科技股份有限公司首次公开发行股票并在科创板上市的审核中心意见落实函的回复》(以下简称“意见落实函回复”),同时按照意见落实函的要求对《开普云信息科技股份有限公司首次公开发行股票并在科创板上市招股说明书(上会稿)》(以下简称“招股说明书”)等相关文件进行了修订和补充。
    
    如无特殊说明,意见落实函回复中简称与招股说明书中简称具有相同含义,涉及对申请文件修改的内容已用楷体加粗标明。
    
    黑体加粗 意见落实函所列问题
    
    宋体 意见落实函所列问题的回复
    
    楷体加粗 涉及修改招股说明书等申请文件的内容
    
    问题1
    
    请发行人按照《公开发行证券的公司信息披露内容与格式准则第41号——科创板公司招股说明书》的规定,全面梳理?重大事项提示?内容,突出重大性,增强针对性,并补充以下事项:报告期内公司主要业务和60%以上的收入来自于为党政机关、企业和媒体提供互联网内容服务平台的建设、运维,并非云计算等意义上的?云服务?。
    
    回复:
    
    发行人在招股说明书“重大事项提示”之“一、特别风险提示”和“第四节风险因素”之“一、经营风险”中修改披露如下:
    
    (二)大数据服务收入占比不高及应用未能拓展的风险
    
    云计算按照服务模式可以分为三种类型,分别为基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)。公司的大数据服务是构建在阿里云等IaaS平台之上的SaaS服务。2016年、2017年、2018年和2019年1-6月,大数据服务收入占公司营业收入的比例分别为24.47%、29.03%、25.69%和41.52%,占公司营业收入大部分比例的互联网内容服务平台建设及运维业务不属于云计
    
    算服务。
    
    公司大数据服务的主要应用集中于政府门户网站和政务新媒体内容监测领域,应用领域相对单一,且公司目前在该领域积累了较大规模的客户基数,已经占据较高的市场份额,新增客户数量放缓。2016年、2017年、2018年和2019年1-6月,大数据服务业务新增客户数量分别为471个、409个、223个和65个;2017年和2018年的收入增速分别为75.74%和28.81%,呈下降态势。公司如果不能有效拓展大数据服务的应用领域,开发出契合客户需求的更为丰富的大数据服务产品,大数据服务业务将面临新增客户数量和收入增速放缓,甚至收入下滑的风险。
    
    问题2
    
    请发行人结合与同行业可比公司的对比情况,以及公司主要收入来自于为党政机关、企业和媒体提供互联网内容服务平台的建设、运维等情况,进一步说明公司核心技术先进性以及招股说明书中?技术水平处于行业领先地位??在‘互联网+政务’领域取得了较为领先的市场地位?等表述是否有客观依据,如无,请删除。请保荐机构核查并发表明确意见。
    
    回复:
    
    (一)进一步说明公司核心技术先进性
    
    1、大规模多形态高性能采集技术
    
    (1)该技术具有较为强大的采集能力
    
    基于该技术,发行人大数据服务业务实现了全国政府网站全面、长期、稳定、高效采集,在最快5分钟、最慢两小时的周期内完成全国政府网站首页和重要栏目的更新检查和网页收录,在24小时的周期内完成全国政府网站的更新检查和网页收录,每天采集网页超过2亿次,总采集有效网页链接超过200亿条,为大规模用户提供了实时监测和预警服务。
    
    (2)与同行业竞争对手相比,该技术在政务内容监测及搜索领域具有先进性
    
    在政务内容监测及搜索领域,发行人从公开信息尚未获知同行业其他公司具备类似技术。竞争对手若要构建此技术,最便捷的方式为采用开源爬虫系统。目前,开源的大型爬虫技术最具代表性的为Nutch。发行人爬虫技术和Nutch爬虫技术的指标对比如下:
    
          技术指标                   发行人爬虫技术             Nutch爬虫技术
                                大规模采集,目前已经支持百 大规模采集,通过扩展节点可
     采集规模                   亿级网页采集,可以扩展到千 以采集千亿级网页
                                亿级
                                5分钟到2小时的周期内完成   Nutch基于hadoop技术实现,
     实时性                     全国政府网站首页和重要栏   无法实现大规模网页的实时
                                目的更新检查和网页收录     性采集,采集周期为一天
          技术指标                  发行人爬虫技术             Nutch爬虫技术
                                自动识别静态网页和动态网   默认只能采集静态网页,需要
     多形态                     页,有效降低动态网页采集频 开发人员识别是否是动态网
                                次、控制采集成本           页并通过配置采集模板实现
                                                           动态网页采集
                                通过自有专利技术实现DOM  对网页源码进行指纹提取,通
                                剪枝,结  合 公 司 改 进 的  过指纹匹配判断网页是否相
     网页相似性判断             Simhash算法对海量网页进行  似,准确度比较低(目前网页
                                相似性判断,执行速度快,准 大多数为模板生成,对指纹提
                                确度高                     取带来干扰)
     网页正文自动提取           基于公司专利技术实现网页   无,所有采集的网页仅仅存储
                                正文自动抽取,准确率高     网页源码
                                效率高。采集节点和爬虫服务 效率低。节点间通信和网页消
                                器通过专用技术进行高效协   重、链接消重均基于hadoop
     采集效率                   同工作,单机每天可以采集   技术,结构复杂,执行效率低。
                                200万网页,通过增加采集节  单机每天采集网页小于100
                                点可以线性增加采集速度。   万,且增加采集节点无法线性
                                                           提升采集速度。
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得4项发明专利,该技术具有先进性。
    
    2、基于平衡语料库的文本智能分析技术
    
    (1)该技术具有较为优越的性能
    
    平衡语料库自动构建技术,极大地降低了人工标注的成本,可以在较短的时间内覆盖较大规模的文本素材,该素材的规模在较高程度上影响了机器学习算法的精度。目前,发行人平衡语料库覆盖了各行各业出版图书、电子报纸、主流媒体新闻资讯,达千亿字规模的文本素材,训练输出结果包括海量的Bigram/Trigram、依存语法关系,且该等内容的规模仍处在快速增长中,为文本智能分析奠定了坚实的数据基础。目前,基于无监督方式为主训练的NGram计算,已经接近人工标注的精度;依存关系计算结果的可信度达到80%以上。
    
    基于平衡语料库的新词发现技术,提高了中文分词的准确性,使中文分词在开放语境达到了接近98%的准确率。基于平衡语料库的敏感规则自动发现技术,提升了新敏感规则发现的及时性,降低了内容安全监测的漏报率以及人工收集敏感规则的成本。基于平衡语料库的关键词抽取技术,提升了关键词准确度,相当大程度上避免了高频常用词语被误报为关键词的情况,提升了用户体验。
    
    (2)与同行业竞争对手相比,该技术在政务内容监测及搜索领域具有先进性
    
    由于平衡语料库建设投入较大、周期较长、并不直接产生经济效益,在政务内容监测领域,发行人从公开信息尚未获知同行业其他公司构建了大规模自主平衡语料库。目前,国内比较知名的主要中文语料库和发行人的平衡语料库对比情况如下:
    
        名称      发布   语料库规           内容                 用途          获取
                  时间      模                                                 方式
     北京大学语  2000    约2,600万  1998、2004年人民日报   用于中文分词        商业
     料库        年      字         全年文章人工分词                           授权
     清华大学依  2013    约20,000   人工标注的两万句句子   用于句子理解、智能
     存句法语料  年      句         成分依存关系库         问答、文本查错      开源
     库
     腾讯词向量  2018    800万词    基于腾讯新闻训练的词   用于深度学习词嵌
     模型        年      汇,数千   向量                   入                  开源
                         亿字
     哈工大                                                基于谷歌BERT预训
     BERT增强   2019    54亿词     覆盖百科、问答、通用   练模型的深度学习    开源
     预训练模型  年                 新闻的BERT模型        和文本分析,如句子
                                                           分类、智能问答
                 未公               覆盖7万部正式出版物、  中文分词、关键词抽
     公司平衡语  开发    近千亿字   1,400余种电子报、300   取、文本查错、搜索  公司
     料库        布                 万篇高质量新闻和政府   词纠错、智能问答、  自用
                                    稿件                   新词发现等
    
    
    发行人以平衡语料库为基础,研发了新词、敏感词自动发现以及关键词自动抽取技术,相比经典算法实现了比较好的抽取效果。以中国政府网一篇文章为例(http://www.gov.cn/xinwen/2019-07/30/content_5417355.htm),发行人基于平衡语料库的关键词抽取效果明显好于经典TF·IDF算法,具体关键词抽取结果对比如下:
    
           算法                              关键词抽取结果
     经典TF·IDF算法   创新,我国,今年,经济,工业,中国,研发,领域
     发行人算法        新业态,关键领域,新产业,5G网络,世界工厂,动力电池,商用
                       元年,商用牌照
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得2项发明专利和5项软件著作权,该技术具有先进性。
    
    3、大规模互联网敏感信息实时监测技术
    
    (1)该技术具有较为优越的性能
    
    1)监测准确率高
    
    目前,对于政务领域的严重错误信息,发行人敏感信息、负面信息、错别字的监测准确率分别在90%、90%、80%以上,达到了较高的实用水平。
    
    2)监测效率高、时效性强
    
    发行人每天采集数亿网页内容,监测技术需要具备较高的执行效率,以便为用户提供及时的监测和预警服务。单台8核16G内存服务器的敏感信息扫描速度达到50万字/秒,单台16核32G的内存服务器的错别字扫描速度达到10万字/秒,单台8核16G内存16G*2显卡服务器负面信息扫描速度达到10万字/秒,能够满足大规模网页文本实时监测的要求。
    
    (2)与同行业竞争对手相比,该技术在政务内容监测领域具有先进性
    
    超级鹰眼网站诊断监测系统是泰得科技自主研发的“网站智能监测和分析平台”,该平台采用大数据分析技术+人工复核为辅助的方式对政府网站可用性和内容建设情况进行持续地、实时地全景监测和分析,具备错别字诊断、敏感词诊断功能。
    
    泰得科技和发行人敏感信息监测技术指标对比如下:
    
                 技术指标                   泰得科技                发行人
                  错别字                有                基于公司专利技术,采用深度
                                                          学习等先进技术构建
                  敏感词                有                有
     功能         句子负面信息检测     无                有
                  外链/暗链检测         有                有
                  隐私/机密信息         无                有
                  广告                  无                有
                  DNS过期              无                有
                                                          政务领域的内容监测应用:
                  准确率                未知              错别字>80%
     性能                                                 敏感词>90%
                                                          句子负面信息>90%
                  稳定性                未知              长期高并发稳定运行
                 技术指标                   泰得科技                发行人
                  处理速度              未知              >10万字/秒
                  发明专利              无                有
                                                          基于平衡语料库的智能文本
                                                          分析技术;
                                                          高效的文本敏感信息识别技
     技术         智能文本分析技术     未知              术;
                                                          基于局部上下文特征、依存关
                                                          系与BERT验证的错别字监测
                                                          技术;
                                                          句子负面信息发现技术;
                  服务客户              较少              众多省级政府、国务院组成部
                                                          门和直属机构、地级政府
                  网页规模              <10亿(从客户规模 100亿级
     数据规模                           推断)
                  语料库规模            未知              近千亿字
                  敏感词规模            未知              >40,000个词
                  负面句子训练规模      未知              正负面句子>1,000万句
    
    
    注:经查询国家知识产权局“中国及多国专利审查信息查询”系统,未发现泰得科技及其子公司已获得发明专利。
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得1项发明专利和4项软件著作权,该技术具有先进性。
    
    4、政务领域智能搜索技术
    
    (1)该技术具有较为优越的性能
    
    1)构建面向目标网站的语义模型,有效提升用户搜索体验
    
    针对目标网站进行语义分析训练,可以有效解决行业特定词汇、特殊句子成分搭配关系给搜索造成的干扰,有效提升用户搜索体验。如在监狱的搜索应用中,“狱警”一词,在监狱行业是常用语,在其他政府网站则较为少见。中文分词词典事先没有收录“狱警”一词,导致正文中的“狱警”会分为“狱”和“警”两个字索引。在搜索时输入“狱警”,自动纠错功能可能把该词纠正为常用词“预警”,则无法为用户返回恰当的搜索结果。
    
    2)应用自然语言处理和深度学习技术,全方位提升搜索智能化水平
    
    云搜索智能化水平体现在能够自动判断用户输入字符的组合关系,结合用户使用场景做出最佳搜索决策;对于用户输入的口语化词汇,能够自动扩展查询同义词或官方用语;自动分析用户群体搜索行为,根据大多数用户输入和点击行为的关联关系,为当前用户提供最佳搜索结果;有效识别各种输入错误,自动帮助用户搜索最可能的正确词;为用户返回搜索结果的同时,也提供相关文章智能推荐等。
    
    (2)与同行业竞争对手相比,该技术在政务内容搜索领域具有先进性
    
    拓尔思是国内较早从事政务和媒体垂直搜索的企业,其搜索引擎产品“TRSHybase”目前也是该领域市场占有率较高的产品。发行人搜索引擎起步相对较晚,近年来依托平衡语料库,引入自然语言处理等先进技术,提供了更多智能化功能,有效提升了用户在政务领域的搜索体验,产品具有较强的竞争力。TRS Hybase和发行人云搜索产品的技术指标对比如下:
    
          技术指标               TRSHybase                  发行人云搜索
        通用语言模型                未知                  有,基于平衡语料库
     针对网站自动训练语             未知             有,基于公司智能文本分析技术
           言模型
          索引分词       支持字、词混合,可以在召回  智能分词,较高查全率,更高的
                           率和准确度之间自由选择                准确度
          分类搜索                   有                           有
          数据采集       文件批量导入,数据库对接,  爬虫,CMS接口,数据精灵可视
                                  ETL工具                     化ETL工具
     智能短语识别和短语             未知                         支持
            搜索
          用户画像             支持,算法未知        支持,结合用户协作推荐和基于
                                                               内容的推荐
          场景搜索              通过应用实现                     支持
      智能query parser技              未知                         支持
             术
                                                      有,基于公司“大规模互联网敏
     全网敏感词禁搜功能        支持配置禁搜词        感信息实时监测技术”,敏感词
                                                              禁搜功能全面
          文档消重             基于关键词指纹           基于分布式Simhash技术
                                                      有,基于公司“大规模互联网敏
          搜索纠错                   有              感信息实时监测技术”中的错别
                                                               字检测技术
          权限管理       权限控制、物理隔离、逻辑隔         细粒度权限控制
                                     离
          技术指标               TRSHybase                  发行人云搜索
          安全管理                  未知             IP限制,敏感词禁搜功能,搜索
                                                                次数限制
          SaaS服务                   无                    提供SaaS搜索服务
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得1项发明专利和2项软件著作权,该技术具有先进性。
    
    5、集约化环境下数字内容全生命周期管理技术
    
    (1)该技术具有较为优越的性能
    
    1)海量异构数据和应用服务的一体化管理能力
    
    该技术实现了跨层级、跨部门、跨系统海量多形态异构数据的统一采集、存储、分析、交换和安全审计的全生命周期管理,为集约化环境下互联网内容服务平台的建设奠定坚实的数据管理技术基础。
    
    2)基于微服务架构的开放和弹性伸缩能力
    
    该技术一方面支持系列标准协议和接口,实现内容服务平台和上层内容应用的分离,简化了上层内容应用开发和数据迁移的技术门槛,扩大了内容管理的应用生态;另一方面基于微服务架构和容器技术部署,可以实现系统秒级扩展,有效提升系统的可扩展性、稳定性和可靠性。
    
    (2)与同行业竞争对手相比,该技术在互联网内容服务领域具有先进性
    
    数字内容管理是一个面向非结构数据的全生命周期的管理技术,由于缺乏国际通用标准,技术体系较为分散,国际上主要竞争对手为Oralce、IBM、Mircosoft,国内主要竞争对手为拓尔思和南京大汉,其技术指标对比具体如下:
    
                                拓尔思                 Oracle的     Microsoft的     IBM的
     技术指标       公司         Wcm     南京大汉    Webcenter    SharePoint   WebSphere
                                                                    Portal       Portal
                接口、批处理、 接口、批处 接口、批处  接口、批处    接口、批处   接口、批处
     资源汇聚   ETL、桌面端自  理、ETL    理、ETL   理、OCR识别  理、OCR识别  理、OCR识
                   动同步                                                            别
     元数据管   支持,并自动提    支持       支持         支持          支持         支持
        理           取
     多维度资       支持         支持       支持        不支持        不支持       不支持
      源分类
                                拓尔思                 Oracle的     Microsoft的     IBM的
     技术指标       公司         Wcm     南京大汉    Webcenter    SharePoint   WebSphere
                                                                    Portal       Portal
     分布式存       支持         支持       支持         支持          支持         支持
        储
     存储消重       支持         未知       未知         未知          未知         未知
     结构化数       支持         支持       未知         支持          支持         支持
      据提取
                 http/https、                            http、        http、        http、
     协议支持    WebDaV、     Http、      http、     WebDaV、    WebDaV、   WebDaV、
               CIMS、CIFS、   RESTFull   RESTFull     CIMS、       CIMS、      CIMS、
                  RESTFull                           RESTFull      RESTFull     RESTFull
     多渠道发   Web、微博、微  Web、微   Web、微
        布      信、头条号、人  博、微信   博、微信       Web          Web         Web
                    民号
     静态发布    2,000网页/分      未知       未知      无静态发布    无静态发布   无静态发布
       性能          钟
     权限控制   目录级、内容级   栏目级     栏目级    目录级、内容  目录级、内容  目录级、内
                                                          级            级          容级
     审计追踪       支持         支持       支持         支持          支持         支持
     微服务架       支持         未知       未知         未知          未知         未知
        构
     单点登录       支持         支持       支持         支持          支持         支持
     发明专利        有           有         无           有            有        未查询到
    
    
    注:经查询国家知识产权局“中国及多国专利审查信息查询”系统,未发现南京大汉已获得发明专利。
    
    此外,从软件产品在具体应用场景的性能表现来看,发行人技术水平不低于政务服务领域同行业主要竞争对手,具体如下表所示:
    
             指标                    公司                     拓尔思                  南京大汉                  科创信息                   南威软件
                           在管理亿级数据的情况下,
                           系统的一般查询服务响应时
                           间在3秒以内;支撑PB级的
                           数据存储;管理后台可以支
                           撑20,000个在线用户的业务                                                     1、交互类业务
                           请求;前端20,000并发用户                                                     平均响应时间:1-3(秒)
                           相应时间小于3秒;单篇文                                                     峰值响应时间:5-10(秒)
                           章发布时间小于1秒(数据                            支持TB级数据,前端1,000  2、查询类业务               1、多用户接入及具有海量
                           来源:西安市政府智能型集   支持PB级数据;前端1,000  并发用户响应时间小3秒;简单查询平均响应时间:1-5     数据处理能力,至少支持
                           约化门户网站平台建设项目   并发用户响应时间小3秒;后端并发   200 并发用户平  (秒)                      3,000 以上用户接入;实现
                           公开招标文件);            后端并发 200 并发用户平  均相应时间小于 3 秒;单  复杂查询平均响应时间:6-15  数据运行达到1亿条以上;
                           一体化政务服务管理平台,   均响应时间小于 3 秒;单  篇文章发布时间小于 1 秒  (秒)                      2、多用户并发处理技术,
     性能                  需要满足支持正常10,000个   篇文章发布时间小于 1 秒  (数据来源:江西省级电   极限数据查询时间:最大样本  在多用户并发环境下,单用
                           用户同时在线的性能要求;   (数据来源:天津市政府   子政务外网IPV6互联网区   量时数据查询时间不超过3分   户登录时间≤0.5s、退出时
                           当峰值 3,000 个用户并发请  网站集约化平台开发建设   和省政府网站集约化平台   钟                          间≤0.1s。
                           求同一个中等复杂度的事务   项目竞争性磋商文件)     改造项目竞争性磋商文     3、统计分析类业务           (数据来源:贵阳市政府数
                           时,响应时间不超过2秒;政                            件)                     一般统计时间:不超过30秒    据开放平台提升改造工程
                           务服务门户,需要满足支持                                                    (数据来源:湖南省生态环境  项目公开招标文件)
                           正常50,000个用户同时在线                                                     厅湖南省综合政务服务平台
                           的性能要求,当峰值   20,000                                                   项目竞争性磋商文件)
                           个用户并发请求同一个中等
                           复杂度的事务时,响应时间
                           不超过2秒(数据来源:东
                           莞市一体化政务服务平台项
                           目公开招标文件)
    
    
    8-1-12
    
             指标                    公司                     拓尔思                  南京大汉                  科创信息                   南威软件
                           系统通过微服务框架的故障   可伸缩、高可用架构,有
                           隔离技术、集群和负载均衡   效解决信息资源调用高并   平均年故障时间小于12小
                           技术,系统支持99.99%可用   发服务的一致性、高性能、时;平均故障修复时间小   软件的缺陷<0.2%、故障率    平均年故障时间小于12小
                           性,年平均故障时间小于  4  高可用、敏捷等痛点,年   于60分钟(数据来源:江   <0.5%,平均年故障时间<1    时;平均故障修复时间小于
     可用性                小时,平均故障修复时间小  平均故障时间小于4小时,西省级电子政务外网IPV6    天,平均故障修复时间<30分  60分钟(数据来源:贵阳市
                           于30分钟(数据来源:西安   平均故障修复时间小于30   互联网区和省政府网站集   钟(数据来源:湖南省生态环  政府数据开放平台提升改
                           市政府智能型集约化门户网   分钟(数据来源:天津市   约化平台改造项目竞争性   境厅湖南省综合政务服务平    造工程项目公开招标文件)
                           站平台建设项目公开招标文   政府网站集约化平台开发   磋商文件)               台项目竞争性磋商文件)
                           件)                       建设项目竞争性磋商文
                                                      件)
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得2项发明专利,正在申请1项发明专利已取得《授予发明专利权通知书》,获得了10项软件著作权,该技术具有先进性。
    
    8-1-13
    
    6、一体化在线政务服务平台的异构数据交换关键技术
    
    (1)该技术具有较为优越的性能
    
    1)基于版式智能文档的数据交换技术先进性
    
    基于版式智能文档的数据交换技术作为一种人机交互技术,在保留了文档交互中的用户使用习惯和操作便捷性的前提下,解决了文档流转中数据难以被有效利用的问题,并提供了所交换的结构化数据和非结构化文档的数字签名和加盖电子印章的能力,为实现“一网通办”提供技术支撑。
    
    2)多源异构数据交汇技术先进性
    
    多源异构数据交汇技术针对B/S架构的应用系统,在不需要修改原系统代码、不需要访问原系统数据库、不需要对接原开发厂商的前提下,针对其应用方式快
    
    速生成标准访问接口,实现数据的快速采集并统一汇聚至新平台,打通了数据在
    
    异构平台之间的流转通道。该技术大幅降低了原有系统数据的采集难度,低成本
    
    聚合第三方服务,实现了数据导流的可追溯、可认证、可管控,高效快速的实现
    
    一体化政务服务中的各类服务集成。
    
    (2)与同行业竞争对手相比,该技术在政务服务领域具有先进性
    
    基于版式智能文档的交换技术,是互联网政务服务中的关键支撑技术。目前提供政务在线服务的大部分厂商如南威软件、科创信息等采用Web表单方式来实现前端和后端的数据交换。智能文档与Web表单技术指标对比如下:
    
              项目                   Web 表单                  发行人智能文档
        是否仿真纸面效果      Web展示形式,精细度低    完全可仿真纸面效果,符合使用习
                                                                     惯
            文档格式                  HTML                   Xforms版式文档
           展示与逻辑                 紧耦合                   展示与逻辑分离
            数据存储                不存储数据          版式和数据可合并或可分离存储
            安全控制                  页面级                文档、页面、字段级别
            数字签名              仅可对内容签名        对版式和内容同步签名,防止版式
                                                                    修改
          数据采集方式               在线采集                  在线和离线采集
          数据校验方式               在线校验                 在线和离线可校验
           设计与应用         根据不同的终端多次设计       一次设计多终端发布使用
            归档情况                 不能归档                版式及数据同步归档
              项目                   Web 表单                  发行人智能文档
           设计与输出             设计和输出分离               设计即打印输出
         文档与数据应用      文档系统和数据管理系统分   文档流转即数据交换,数据一次录
                                 离,数据重复录入               入多应用使用
           应用复杂度           需要前端工程师完成      初级页面设计人员均可设计开发
            格式转换           HTML,其他格式需定制    可自动转换成HTML、PDF、Word
    
    
    关于多源异构数据交汇技术,根据公开信息,国内除发行人外,北京大学和北京因特睿软件有限公司产学研合作的“云-端融合系统的资源反射机制及高效互操作技术”(以下简称“因特睿技术”)也具备多源异构数据交汇技术。二者技术指标对比如下:
    
         项目                 发行人技术                       因特睿技术
     技术构成      开发平台、运行平台、管理平台      运行平台、生成平台、管理平台
     接口规则      基于XML技术,少量场合需要一些动 Java程序语言实现
                   态脚本语言
                   1、基于ElectronJS构建开发界面,使  1、基于eclipseRCP技术,使用SWT
                   用socks代理捕捉HTTP请求,跨平台  技术通过JNI调用本地浏览器,支持
                   支持windows、Linux、macOS,轻量  windows系统,资源占用率较高,推
     开发平台      级桌面应用,资源占用率低,2核4G  荐配置4核16G以上的PC机
                   内存PC机可流畅运行               2、开发平台对接口开发人员要求较
                   2、开发平台对接口开发人员技术要   高,需要掌握java编程技术,需要掌
                   求低,掌握HTML知识可流畅使用    握eclipse开发环境
                   1、基于静态的XML接口模板和常见  1、基于java语言动态编译技术,对
                   脚本语言,运行时无需浏览器,通过  编译的代码需要通过classloader动态
                   HttpClient 可 模 拟 各 种 复 杂  加载代码,内存开销大。
                   HTTP/HTTPS请求,内存占用小。    2、用户请求固定在一个节点,无法
     运行平台      2、运行平台可通过负载均衡技术,   自动切换到其他节点,因此实际上无
                   将前端用户请求分发到多个并行运    法实现负载均衡,只能手工去划分不
                   行的集群节点,用户会话自动切换到  同接口到不同服务器,管理配置复
                   相应服务器节点,从而实现弹性扩    杂。
                   容。
                   基于B/S架构实现,基于NodeJs开发, 基于B/S架构实现,基于Java开发,
     管理平台      支持windows、linux、macOS等多种   支持windows、linux、macOS等多种
                   操作系统                          操作系统
                                                     1、人员成本高,需要掌握java编程
                   1、人员成本低,只需要掌握html     技术
     接口开发成    2、操作简便,记录操作人员web访问  2、开发平台可生成一些java类模
     本            历史,自动生成接口                板,需要开发人员在eclipse环境集成
                                                     的浏览器中去分析网页请求,根据请
                                                     求参数去修改java类模板,操作复杂
    
    
    综上所述,该技术在业务大规模应用中的效果良好,发行人基于该技术已取得3项发明专利,正在申请1项发明专利,获得了5项软件著作权,该技术具有先进性。
    
    (二)招股说明书中?技术水平处于行业领先地位??在‘互联网+政务’领域取得了较为领先的市场地位?等表述的客观依据
    
    1、招股说明书中“技术水平处于行业领先地位”表述的客观依据
    
    发行人核心技术先进性的客观依据详见本题“(一)进一步说明公司核心技术先进性”的回复内容。
    
    考虑信息披露的审慎性,发行人将招股说明书中“技术水平处于行业领先地位”修改为“技术水平在政务服务领域具有先进性”。
    
    2、招股说明书中“在‘互联网+政务’领域取得了较为领先的市场地位”表述的客观依据
    
    (1)发行人在互联网内容服务平台建设和政府网站内容监测领域取得了较为领先的市场地位
    
    报告期内,发行人互联网内容服务平台建设业务的客户包括中共中央纪律检查委员会、最高人民检察院等党和国家机构,累计20%左右的省级政府、国务院组成部门和直属机构;大数据服务累计覆盖60%以上的省级政府、40%以上的国务院组成部门和直属机构、40%以上的地级政府。
    
    其中,政府网站集约化平台建设是发行人互联网内容服务平台建设业务的代表性领域,发行人在该领域取得了较为领先的市场地位。《政府网站集约化试点工作方案》(国办函〔2018〕71号),确定10省(区、市)1市(北京、吉林、安徽、山东、湖北、湖南、广东、广西、重庆、贵州和西藏自治区拉萨市)作为集约化试点地区,要求其2019年12月底前完成政府网站集约化工作。经查询全国主要政府采购公示网站,10省(区、市)1市中7省(区、市)1市(本级)发布了政府网站集约化建设中标情况信息。其中,发行人中标3省(区、市)1市的政府网站集约化建设,中标数量排名第一;发行人中标金额为9,250.90万元,中标金额排名第一。
    
    截至目前,发行人大数据服务已经覆盖全国7,232家政府网站,占全国政府网站数量比例为49.60%,在政府网站内容监测领域取得了领先的市场地位。
    
    (2)参与多项国家级、省级标准规范的制定,并获得多项认可
    
    发行人参与了国家标准《XML在电子政务中的应用指南》(GB/Z19669-2005)的制定,参与了国务院办公厅制定的《政府网站发展指引》(国办发〔2017〕47号)的课题研究工作,参与了北京市、海南省、湖南省、广州市政府网站集约化相关标准规范的制定,是国务院办公厅第一次全国政府网站普查的平台建设和技术支撑单位。
    
    基于发行人大数据服务平台采集的全国政府网站数据的全面、准确和及时性,发行人相关数据为中国互联网信息中心(CNNIC)牵头组织撰写的《第42次中
    
    国互联网络发展状况统计报告》、《第43次中国互联网络发展状况统计报告》,清
    
    华大学发布的《2018 年中国政府网站绩效评估报告》所引用;大数据服务平台
    
    被广东省大数据协会、广东软件行业协会评为 2019 年广东省优秀大数据案例
    
    TOP30。
    
    发行人曾获得国家科学技术部等多部门联合颁发的《国家重点新产品》证书,广东省科学技术奖二等奖和东莞市科学技术进步奖一、二、三等奖;先后承担或参与了10余项国家级或省部级基金项目;获得计算机软件著作权200项;取得发明专利10项,1项发明专利申请取得《授予发明专利权通知书》,1项发明专利申请进入实质性审核阶段。此外,发行人自2002年至今连续17年(子公司北京开普自2004年至今连续15年)通过《高新技术企业》认证,自2016年至今连续通过了最高级别的软件能力成熟度模型集成CMMI5评估,并取得了质量管理体系(GB/T19001-2016/ISO9001:2015)、信息技术服务管理体系(ISO/IEC20000-1:2011)、信息安全管理体系(GB/T 22080-2016/ISO/IEC 27001:2013)、知识产权管理体系(GB/T29490-2013)、信息技术服务运行维护标准符合性认证(ITSS-YW-3-440020190685)成熟度叁级等认证,是中国电子工业标准化技术协会信息技术应用创新工作委员会会员单位。
    
    综上所述,发行人在互联网内容服务平台建设和政府网站内容监测领域取得较为领先的市场地位具有客观依据。考虑信息披露的审慎性,发行人将招股说明书中“在‘互联网+政务’领域取得了较为领先的市场地位”的表述修改为“在互联网内容服务平台建设和政府网站内容监测领域取得了较为领先的市场地位”。
    
    (三)核查情况及核查意见
    
    1、核查情况
    
    保荐机构针对上述事项,履行了以下核查程序:
    
    (1)访谈发行人实际控制人、核心技术人员,查阅发行人产品说明书、同行业公司官方网站等公开信息以及行业相关技术资料,了解发行人核心技术的先进性;
    
    (2)访谈发行人实际控制人、核心技术人员,取得发行人销售明细以及销售合同,查询全国主要政府采购公示网站并统计试点省市政府网站集约化建设的中标单位,查阅了发行人参与的标准规范和获得的奖项认可,核查发行人技术和市场地位表述的客观依据。
    
    2、核查意见
    
    经核查,保荐机构认为:
    
    发行人核心技术在政务服务领域具有先进性,发行人在互联网内容服务平台建设和政府网站内容监测领域取得了较为领先的市场地位。
    
    问题3
    
    请发行人按照互联网内容服务平台建设、大数据服务、运维服务的类别,进一步对收入构成的披露进行修改完善。
    
    回复:
    
    发行人已经按照互联网内容服务平台建设、大数据服务、运维服务的类别,对首次公开发行股票并在科创板上市申请文件涉及的收入构成的披露进行修改完善,将“互联网内容服务平台业务”修改为“互联网内容服务平台建设业务”,将“大数据服务平台业务”修改为“大数据服务业务”。
    
    (本页无正文,为《开普云信息科技股份有限公司关于的回复》之盖章页)
    
    开普云信息科技股份有限公司
    
    年 月 日
    
    (本页无正文,为《国金证券股份有限公司关于的回复》之签章页)
    
     保荐代表人:
    
    
    郭圣宇 王学霖
    
    国金证券股份有限公司
    
    年 月 日
    
    国金证券股份有限公司董事长声明
    
    本人已认真阅读关于开普云信息科技股份有限公司首次公开发行股票并在科创板上市审核中心意见落实函的回复的全部内容,了解报告涉及问题的核查过程、本公司的内核和风险控制流程,确认本公司按照勤勉尽责原则履行核查程序,审核中心意见落实函的回复不存在虚假记载、误导性陈述或者重大遗漏,并对上述文件的真实性、准确性、完整性、及时性承担相应法律责任。
    
       董事长:
    
    
    冉 云
    
    国金证券股份有限公司
    
    年 月 日

查看公告原文

微信
扫描二维码
关注
证券之星微信
相关股票:
好投资评级:
好价格评级:
证券之星估值分析提示开普云盈利能力一般,未来营收成长性一般。综合基本面各维度看,股价偏高。 更多>>
下载证券之星
郑重声明:以上内容与证券之星立场无关。证券之星发布此内容的目的在于传播更多信息,证券之星对其观点、判断保持中立,不保证该内容(包括但不限于文字、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关内容不对各位读者构成任何投资建议,据此操作,风险自担。股市有风险,投资需谨慎。如对该内容存在异议,或发现违法及不良信息,请发送邮件至jubao@stockstar.com,我们将安排核实处理。如该文标记为算法生成,算法公示请见 网信算备310104345710301240019号。
网站导航 | 公司简介 | 法律声明 | 诚聘英才 | 征稿启事 | 联系我们 | 广告服务 | 举报专区
欢迎访问证券之星!请点此与我们联系 版权所有: Copyright © 1996-