人民网
人民网

第十六届人民之选匠心奖

“2019年度人民匠心技术奖”候选企业:北京数知科技股份有限公司

2019年12月12日15:05 | 来源:人民网-产经频道
小字号

企业名称:

 北京数知科技股份有限公司

竞选理由:

 1数据采集技术

数知数据采集技术,为客户赋予了全网数据采集能力。包含移动端、Web端、联网客户端(桌面端)和云端四部分:

移动端数据采集模块

支持 APP(IOS、Android)、H5、微信小程序数据抓取。可抓取内容包含但不限于操作数据、页面内容数据、用户收藏、点赞、转发数据。

该模块帮助客户获取更加精细全面的移动端数据,客户可基于采集到的数据,深度洞察其用户的行为数据,从而不断迭代提高对用户的服务能力。

Web端数据采集模块

支持不同浏览器中打开的Web中不同结构网页数据抓取。客户只需制定字段内容,我们将按照网页中的数据结构保真抓取,网页所见即抓取所得。

该模块破解了长期困扰Web端数据采集领域的网页结构差异问题,我们基于爬取的数十亿个网页,对不同网页的特征进行了归类总结。同时,根据客户指定的字段抓取需求,智能推导客户真实的数据需求,进而执行采集操作。

联网客户端数据采集模块

支持安装于电脑桌面的客户端数据抓取。只需满足客户端联网,我们就能采集后端业务服务器打印的日志。更强的采集能力,更好的支撑精细化分析场景。

本地/云端数据库数据采集模块

支持存储于本地或云端的各个关系型数据库中的业务数据抓取散落在不同存储地址的数据通过采集深度组合,释放各大数据分析深度潜力。

数知数据采集技术总体优势在于全网可采、合法防封和全自动的优势,会大大降低客户在数据采集方面的时间和人力成本。

全网可采

眼见即可采,不管是图片电话,还是贴吧论坛,支持所有业务渠道的爬虫,满足各种采集需求

简易采集模式内置上百种类型主流网站数据源,如购物、旅游、金融等全品类或垂类采集网站,只需选定数据源和内容字段,就可以快速获取网站公开数据。

合法防封

数知采集,完全在法规约束范围内采集数据。

通过模拟用户使用场景,根据不同网站,自定义配置组合浏览器标识(UA),全自动代理IP,浏览器Cookie,验证码破解等功能,实现突破绝大多数网站的防采集策略。

全自动采集

频率方面,采集云服务器支撑下,支持7*24小时无值守不间断采集,也可根据客户需求定时采集。

处理方面,内置数据格式化引擎,支持字符串替换、正则表达式替换或匹配、去除空格、添加前缀或后缀、日期时间格式化、HTML转码等多项功能,采集过程中全自动处理,无需人工干预,即可得到所需格式数据。

2 知识图谱技术

数知金融知识图谱,应用目前世界领先的知识图谱技术,通过建立本体(ontology)将不同数据库中的实体(entity)互相关联,使得推理成为可能。

该知识图谱由数知自主搭建的知识图谱服务生成。数知知识图谱服务的特色优势如下:

自搭建模型

灵活富有弹性的图谱自搭建模型,使数知知识图谱具备无限拓展能力。

模型体系,提供强大、易用的知识图谱构建服务,为企业 快速完成集数据获取、数据存储、数据融合、数据分析于一体智能化建设奠定开拓性的基础。

语义分析

基于命名实体识别、实体属性、实体关联抽取等自然语言处理过程,构建深度学习搭建词法、句法、篇章分析的自然语言处理栈,使图谱节点更精确、误判率更低。

推理引擎

推理引擎可构建图谱节点间关系,赋予实体与关系的语义含义,完成实体关系与属性的推导,以及事件对实体的影响在网络上的传导。

3 自然语言理解(NLP)

数知智能金融服务,基于数知NLP认知矩阵,该矩阵致力于让机器像人类一样思考。

同时,该矩阵还提供词法分析、依存文法分析、情感/情绪识别分析、实体识别、词向量表示、语义联想、语义相似度、观点挖掘等基础服务,可进一步为客户提供定制服务。

4 机器学习

数知机器学习分为四个部分,分别是:

数知机器学习包

使用数知机器学习包可提升数据科学工作效率 - Knogen机器学习的 Python 封装包可以简化创建点对点管道,让开发者能够针对各种领域构建和部署具有高 AI 质量的机器学习和深度学习模型,加速创建过程。

数知机器学习和深度学习矩阵

基础AI 服务:数知机器学习服务提供自然语言理解、自动语音识别 、图像识别、文本转语音 等AI训练基础服务。

深度学习平台:通过数知深度学习平台,以得到灵活快速、高度可扩展的模型训练体验。同时,Knogen大数据套件通过内存计算实现实时加速,以构建大规模弹性应用。

AI 基础设施:神经网络其中涉及增加大量模型的过程。Knogen 实例提供功能强大的 GPU计算能力,大幅缩短了计算时间。

模型自调校服务

在人工调校算法模型调校过程程序化的帮助下,无需人工深度推敲的常规任务可 以实现自动化。服务可根据任务的模式、预先定义的标准和算 法来决定一项任务是否需要人工互动的参与。这使更多的重要任 务无需人为干预就可以完成。

事务性和分析性层面的技术经过合并,实时检查任务模式。如 果指令与预先定义的特征标准不符,则这些指令被列入“例外清单”,服务不会再做出过多分析。这是一个强大的变化,可 以在事件发生后更有效地利用资源。

数据结构化治理服务

数知知识图谱构建组件,整理了百科数据、表单数据、工商数据、专利数据、新闻资讯、自媒体文本等结构化或非结构化数据的结构化过程,让开发者从琐碎的数据治理过程中解脱出来,从而更加聚焦算法和业务进化。

同时,我们开放了部分已经结构化了的文本、图片和视频数据,随用随取。

竞选说明:

数知科技(SZ.300038),2004年在北京成立,于2010年1月在深交所创业板上市,是国内领先的“大数据+人工智能”、“5G+智慧物联网”建设、运营服务提供商。

2018年,凭借十余年在通讯领域影响力及技术、资本、人才的积累,首次提出“知识即服务”理念,全面升级面向政府、企业数字化转型服务能力。2018年数知科技共实现营业收入54.54亿元,实现营业利润总额7.57亿元。目前,公司市值百亿元,员工近2000人,业务和员工遍及全球20多个国家和地区。 

注:以上资料均由申报者提供。

(责编:车柯蒙、庄红韬)

分享让更多人看到

返回顶部