本篇文章4312字,读完约11分钟

雷锋。(公开号码:雷锋。com)出版社:林金洲,本文作者,澳大利亚资本银行高管团队负责人。

知识图/知识库(以下简称kg)本质上是一个语义网络和基于图的数据结构,由节点和边组成。在知识地图中,每个节点代表现实世界中存在的“实体”,每个边代表实体之间的“关系”。知识地图是表达关系最有效的方式。一般来说,知识地图是通过连接各种异构信息而获得的关系网络。知识地图提供了从“关系”角度分析问题的能力

一文读懂知识图谱的商业应用进程及技术背景

Kg应用文章在知识地图的应用中,施将介绍名人知识地图的聚类以及知识地图在搜索引擎、聊天机器人、金融技术等领域的商业应用。

为了更生动地解释这个定义,人、作品、地方、价值观、高度等等。可以用作知识地图中的节点,我们称这些节点为实体。实体可以用几个属性来表示,节点关系可以包括妻子、女儿、兄弟、偶像、志趣相投者和其他关系属性。不同的实体可以通过它们的属性进行关联,例如:

一文读懂知识图谱的商业应用进程及技术背景

然而,许多公司做知识地图网络有问题。例如,在电影和音乐的知识地图中,电影数据源中有刘德华,音乐数据源中有刘德华,实际上是一个人。然而,目前知识地图的聚类分布效果并不好,而且往往容易出现两个刘德华。当从不同的数据源构建地图时,必须有一个自动化的算法来对刘德华进行聚类。最困难和最紧迫的问题是如何从不同的数据源中聚类相同的实体。谷歌在这方面走了弯路,但谷歌现在的崛起也证明了谷歌正在从搜索引擎向谷歌知识地图转型。

一文读懂知识图谱的商业应用进程及技术背景

知识地图首次应用于搜索引擎领域。

自谷歌在2012年推出第一版知识地图以来,它在学术界和工业界掀起了一股热潮。作为回应,大型互联网公司仅在一年内就推出了自己的知识地图产品。例如,在中国,互联网巨头百度和搜狗分别推出了“亲密度”和“知识立方体”来提高他们的搜索质量。其目的是通过语义将碎片化的数据联系起来,这样用户就可以直接搜索东西而不是文本字符串。将知识地图引入搜索引擎可以极大地改善和优化搜索体验。与传统的基于关键词搜索的搜索引擎不同,知识地图可以更好地查询复杂的相关信息,从语义层面理解用户意图,提高搜索质量。例如,当你在谷歌搜索框中输入比尔·盖茨时,与比尔·盖茨相关的信息,如出生日期、家庭状况等,将出现在搜索结果页面的右侧。谷歌可以准确地返回他的妻子梅林达盖茨的稍微复杂的搜索句子,如“谁是比尔盖茨的妻子。”这表明搜索引擎通过知识地图真正理解了用户的意图。

一文读懂知识图谱的商业应用进程及技术背景

近年来,随着人工智能的重新出现,知识地图被广泛应用于聊天机器人和问答系统中,用来帮助人们深入理解人类语言,支持推理,增强人机问答的用户体验。典型的例子有ibm的沃森、苹果的siri、谷歌allo、亚马逊echo、百度秘密(Baidu Secret)和蔡尔德小白。

一文读懂知识图谱的商业应用进程及技术背景

知识地图也被广泛应用于各种问答互动场景中。沃森依赖于百科全书式的知识库,如dbpedia和yago,以及语言学知识,如wordnet。同样,阿列克谢也依赖于早期获得的真实知识所积累的知识库;Siri使用dbpedia和可计算的知识服务引擎wolframalpha;由狗尾草(Setaria viridis)推出的虚拟美女机器人“琥珀虚拟脸”(Amber virtual face)使用了中国第一个链接知识库致仕。随着机器人和物联网设备的智能化,智能厨房、智能驾驶、智能家居等应用层出不穷。巧合的是,百度的杜尔操作系统和siri的进化viv也得到大量知识库的支持。

一文读懂知识图谱的商业应用进程及技术背景

萧冰是微软中国团队推出的一款娱乐聊天机器人。她应该是一个16岁的女孩。萧冰是一个基于搜索的回复检索系统。通过基于深度学习的各种语义匹配算法,从大量的问答对语料库中返回最佳响应(消息响应而不是答案)。萧冰还会不时地向每个人介绍新的技能。这些技能通常包括微软团队在图像理解、发音和自然语言理解方面的各种小的应用尝试。更值得一提的是,微软为日本、北美和欧洲等市场引进了不同性格的女孩,如林娜、泰和佐。他们经常可以通过微信、微博或推特方便地交流。此外,知识地图还用于提高数据分析的能力和效果。例如,著名的大数据公司palantir利用知识地图建立数据关联,以提高上游数据分析的效果。与知识地图相关的语义技术也被用来提高机器之间的语义互操作性,并解决机器之间的语义理解问题。例如,全球最大的物联网标准化组织onem2m将语义和知识技术作为物联网设备抽象和语义封装的技术基础。

一文读懂知识图谱的商业应用进程及技术背景

知识地图广泛应用于金融、农业、电子商务、医疗保健和环境保护等众多垂直领域。例如,许多金融公司还建立了金融知识库,以整合和管理分散的金融数据,并协助金融专家进行风险控制和欺诈识别;生物医学专家整合和分析大规模生物医学知识地图,以帮助他们进行药物发现、潜在目标识别和其他任务。就金融领域而言,规则可以是专家对行业的理解、投资的逻辑以及对风险控制的把握。这种关系可以是上下游、合作、竞争对手、子公司、投资、标杆等之间的关系。高管与企业的关系也可以是行业之间的逻辑关系。实体是投资机构、投资者、企业等。,它们由知识图表示,用于更深层次的知识推理

一文读懂知识图谱的商业应用进程及技术背景

这里,我们主要关注知识地图在国内金融市场的应用。目前,我们可以简单地对中国市场上主要类型的金融知识图谱进行分类。

知识地图在国内金融市场的子应用超过15个,其中10个出现在去年,足以看出技术成本的有效下降对该行业的促进和影响。此外,一些国内消费金融和互联网金融公司也在积极使用知识地图来加强自身的风险控制和改善用户形象。这里,让我们举一个京东金融的例子。

一文读懂知识图谱的商业应用进程及技术背景

京东金融团队花了大量时间研究京东商城消费者的行为知识地图数据。在真正的交易之前,有20-30倍的行为数据,它们都是零散的。风险控制团队的工作是对这些细节进行筛选和评级,这些细节甚至包括同一用户是否应该首先查看购物车或优惠券渠道。“如果你马上去购物车,欺诈的风险更大,因为他根本不比较价格,这可能是一个欺诈性的套现风险。”因为京东做从商家选择到物流的一切,它能掌握越来越准确的第一手数据。例如,除了电子商务交易数据,京东自身的物流可以提供大量的物流数据。现在,通过这些数据,我们可以判断一笔交易背后的许多逻辑:“例如,不管它是一个活跃的客户——活跃的客户通常都有较低的违约概率。如果用户购买的电视是60英寸的产品,很容易推断他将拥有一个大客厅。经过模型处理后,这些与信贷关系不大的零散数据可能会变得有用。”京东金融披露了对8家科技公司的投资。这些公司参与数据源、数据捕获、数据清理和建模。京东金融的4000多名员工中有一半是风险控制和技术团队的成员。在消费金融领域,近100人专注于模型构建,而另一部分专注于数据挖掘。大量的数学和统计学医生正在进行模型开发和定量开发。与市场上大多数竞争对手相比,京东金融在数据丰富性和质量方面更具优势。因此,利用知识地图建立用户形象和相应的风险控制模型具有明显的先行者优势。

一文读懂知识图谱的商业应用进程及技术背景

随着互联网的快速发展,知识存在于非结构化文本数据、大量半结构化表格和网页以及生产系统的结构化数据中。在世界各地收集的数据中,知识地图帮助我们准确地构建每一层数据、每一条新闻、每一条微博、每一个朋友圈和每一个网页数据。对于每一条非结构化数据,平均有7-8条知识地图被精确解构,包括时间、地点、人员、事件、机构等。我们将每天更新3000多万章和5亿多条数据,并叠加它们来分析两点、三点、任意点和任意元素之间的关系。而这些在数据底部构成了一个巨大的没有语言符号的知识地图。

一文读懂知识图谱的商业应用进程及技术背景

Kg技术:目前,世界上已经有非常成熟和知名的高质量大规模开放知识地图,包括dbpedia、yago、wikidata、babelnet、conceptnet和微软概念图。其中,dbpedia是一个大规模的多语种百科知识地图,可视为维基百科的结构化版本。维基百科是一个多语言百科知识库,可以自由编辑和协作。它由维基媒体基金会发起,旨在从维基百科、维基百科、维基百科指南和其他项目中提取、存储和关联结构化知识。巴别网是世界上最大的多语百科同义词词典,可以看作是由概念、实体和关系组成的语义网络。Babelnet目前有超过1400万个条目,每个条目对应一个synset。每个synset包含表达相同意思的所有不同语言的同义词。例如,“中国”、“中华人民共和国”、“中国”和“中华人民共和国”都存在于同一个集合中。

一文读懂知识图谱的商业应用进程及技术背景

目前可用的中文大规模开放知识地图有:致仕. me、致仕. schema和xlore。其中,致仕. me是第一个建立中文链接数据的工作,它类似于dbpedia,拥有大约1000万个实体和1.2亿个rdf三元组。致仕图式是一个大规模的汉语图式知识库,其实质是一个语义网络,包含了相等、相关和子类三个概念之间的关系。致仕模式是从社交网站的类别分类和标签云中提取的。目前,它拥有约40万个中文概念和150万个rdf三元组,准确率约为84%,并支持数据集的完整下载。

一文读懂知识图谱的商业应用进程及技术背景

此外,openkg在行业中也非常受欢迎。作为推动中国知识地图开放和互联互通的平台,已建成openkg.cn科技平台,目前已有54家机构入驻。吸引了国内最著名的知识地图资源,如致仕. me、cn-dbpedia、pkubase。它已经包含了来自常识、医疗保健、金融、城市和旅游等15个类别的开放知识地图。

一文读懂知识图谱的商业应用进程及技术背景

知识地图的计算过程一般包括:知识提取、知识表达融合、知识存储计算和知识检索应用

知识获取:在处理非结构化数据时,我们必须首先从用户的非结构化数据中提取文本。目前,互联网数据中存在大量的广告,文本抽取技术希望在只保留用户关注的文本内容的同时,有效地过滤广告。在获得正文后,有必要通过自然语言技术来识别文章中的实体。实体识别通常有两种方法。一个是,如果用户有知识库,实体链接可以用来将文章中可能的候选实体链接到用户的知识库。另一个是,当用户没有知识库时,他们需要使用命名实体识别技术来识别文章中的实体。

一文读懂知识图谱的商业应用进程及技术背景

知识融合是指从多个数据源中提取的知识的融合。

知识计算主要是根据地图提供的信息获取更多的隐性知识,如数据中的隐性知识可以通过本体或规则推理技术获得;链接预测可以预测实体之间的隐含关系;同时,利用不同的社会计算算法来计算和获取知识网络上知识地图中存在的社区,并提供知识关联的路径;利用不一致检测技术发现数据中的噪声和缺陷。通过计算知识地图,可以生成大量的智能应用程序,例如提供准确的用户肖像和为精确营销系统提供潜在客户;向专家系统提供领域知识,提供决策数据,并提供律师、医生、公司首席执行官等辅助决策意见;提供更智能的检索方法,让用户可以通过自然语言进行搜索;当然,知识地图也是问答的重要组成部分

一文读懂知识图谱的商业应用进程及技术背景

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

标题:一文读懂知识图谱的商业应用进程及技术背景

地址:http://www.hcsbodzyz.com/hcxw/10064.html