建勇茶叶有限公司欢迎您!

从智能检测到智能决策,开普云在AI时代下还有哪

时间:2020-04-03 19:40

远至1万年前的新石器时代,为适应农业及其他手工业需求的远古人对石质工具进行打磨加工;近及18世纪60代开始席卷全球的工业革命,新能源动力机器的发明推动生产力飞跃式发展和生产关系大变革,这一点早已被一次又一次地论证过。

几年前,AlphaGo团灭人类围棋手,将人工智能推向台前。所有人都在问一个问题,AI究竟是什么。

在我看来言,AI不仅是新一轮生产资料大发现的过程,更是新一轮生产力释放和补充。因为在AI时代,数据成为新时代的石油工业,规模甚至会更大,更特殊,更具有战略性。

而对于一家企业来说,未来如何创造收入,随之而来机会又要多大,这一切都要从更大的画面上去考虑,而不是从过去的财务结果上去找预期。

从这个角度上来说,依托于数字内容管理业务的开普云,无疑卡住了一个不错的位置,也让它有了更大的想象空间。

什么是数字内容管理业务?简单来说,是依托于互联网内容服务云平台及统一信息资源库等相关产品,帮助政府完成互联网数据中台建设。

以开普云$开普云(SH688228)$的一体化政务业务为例,过去政府有很多数据,包括不同政府部门的数据,也包括文本、图片、音频、视频等多种结构的数据。

随着政务信息化改革的深入,政府需要一个更强大的数据平台,帮助他们打通各部门的业务系统,实现不同部门数据的统一采集,不同结构数据的统一存储,最终实现后端不同场景下数据的统一调度。

开普云的数字内容管理业务的应用场景主要有三个:智慧门户、一体化政务以及融媒体。从目前来看,公司在三个场景中均有不俗的表现。

在智慧门户领域,开普云的客户覆盖了全国20%左右的省级政府,国务院组成部门和直属机构。在政府服务平台方面,公司也承担了多个政务服务平台的项目建设。

一方面,AI技术的落地应用往往会优先爆发在数据化程度较高的领域,比如医疗的数据比较少一些,AI渗透的难度会大一些。

原因在于,现在普遍的监督算法必须依赖标记数据。无监督算法对数据标记的要求会小一些,但是技术还不是很成熟,主要是做聚类和分析。

当这些数据通过AI技术成为结构化、可利用、可输出的生产要素,便为开普云积累了一笔最大的财富。这也让它们有了更大的想象空间。

纵观过去,每一次技术革命,都带来全新的商业机会。互联网本质上解决了效率和链接的问题,进而出现外卖、社交、打车等新业态。

而人工智能的价值主要在于两点,生产工具的延伸和人工劳动力的替代。前者的例子是淘宝天猫的智能推荐,提高人们获取商品的效率,而后者的典型则是海底捞的机器人。

对于人工智能企业来说,核心并不在技术,而在于场景的选择。以开普云为例,由于积累的数据大多为政府稿件和图片,因此他们选择政府内容安全的场景切入。

从过去来看,人工智能的应用要经历从感知、认知到决策的三阶段。感知智能只能实现对语音、图像和人脸的识别,而认知智能可以更好地理解语言的含义,实现和人类的交互,以及各种洞察和决策分析。

早期,开普云的大数据服务主要以政府网站的内容安全为主。其中很重要的一个工作是,敏感词的识别。

在当下信息爆炸时代,每天都在诞生新词、新的敏感用语。基于对语义的正确理解,快速找到新词和敏感用语,减少新词、敏感用语漏报,是内容安全监测的重要工作。

技术方面,开普云通过平衡语料库自动构建技术,极大地降低了人工标注的成本,可以在较短的时间内覆盖较大规模的文本素材。目前,基于无监督方式为主训练的NGram计算,已基本接近人工标注的精度,依存关系计算结果的可信度达到80%以上。

在深度学习的模型下,数据规模很大程度上会影响机器学习算法的精度。目前,公司平衡语料库覆盖了各行各业出版图书、电子报纸、主流媒体新闻资讯,达千亿字规模的文本素材,数据量远远超过国内其他中文语料库。

大数据服务具有规模效应。即客户越多,你收到数据反馈越多,大数据产品精准度就越高,继而被更多客户选择,最终形成马太效应。

在政务大数据监测领域,这一趋势已经极为明显。截至目前,开普云大数据服务的客户覆盖了65%的省政府以及40%的地级政府,在细分领域占据绝对优势。

作为大数据监测领域头部平台,随着客户需求的复杂化,开普云的大数据服务也有计划从感知领域向更深度的认知领域延伸,即从敏感词识别过渡至舆情监测。

众所周知,在识别领域,文本的识别处理难度最高。原因是文字、语言涉及语义理解,主观色彩更重,因此更为复杂。

技术能力的提升,进一步拓展了开普云的应用场景。比如,当用户搜索内容时,开普云通过人工智能技术,极大加强搜索结果的准确性。

此外,大数据服务可以从网站内容的监控扩大至全网的舆情监控,比如当一个政策发布后,网上的正面评论有多少,负面评论有多少,评论中出现最多的关键词又有哪些。

基于这些反馈数据,可以为政府的决策提供参考,从而帮助其建立健全的舆情收集和回应机制。

这也代表了人工智能的一个重要发展趋势,即随着数据量的增长和业务场景复杂度的提升,AI应用势必要从智能识别走向更高阶的智能辅助决策。

要知道,国家知识产权局是文献内容很多的政府部门。原因是按规定在专利申请过程中,申请人需要提交一系列的申请文件,如请求书、说明书、摘要和权利要求书等,再由专利审查员去看申请的内容是否满足要求。

但随着专利申报数量的增加,国家知识产权局每年能收到几百万篇申请,如何更高效地完成筛选工作变成一个棘手的问题。开普云大数据服务的价值就凸显出来了。

而开普云提供的解决方案是,搜集历史上所有专利申报成功的稿件,通过人工智能识别网络的算法把关键特征进行提取,再将新的文献与关键特征进行匹配,最终得出一份创新性比例的参考数据。凭借这个算法,使得客户的审查效率大大提高。

事实上,这种类似于智能决策的业务,在各个细分领域的应用日益频繁。比如在医学影像领域,利用人工智能系统辅助阅片。

而随着人工智能从感知走向认知,要解决的业务问题从单个业务场景、单点问题,向业务全流程演进,行业know-how的复杂度和壁垒变得更高,给技术驱动的人工智能服务商带来更大的商业机会。

一方面,深入场景服务需要极强的业务理解做支撑,行业准入门槛大大提高。另一方面,人工智能与行业深度融合后重塑业务流程和产业链,形成巨大的商业机会,比如基于计算机视觉的智能货柜,相比传统机械式无人售货机成本下降50%以上。