本篇文章2740字,读完约7分钟
据雷锋的《人工智能技术评论》报道,阿里的知识地图每天保存着数千万次拦截和数亿次智能审计,在垃圾邮件、侵权、合规、假冒商品和业务范围等多个场景中充分面对问题卖家,并实时玩游戏,最大限度地保护知识产权,保护消费者权益。
什么是知识地图?
在互联网时代,搜索引擎是人们在线获取信息和知识的重要工具。当用户输入查询词时,搜索引擎将反馈它认为与关键词最相关的网页。
直到2012年5月,搜索引擎巨头谷歌首次将“知识地图”引入其搜索页面:用户不仅可以获得搜索页面的链接,还可以看到与查询词相关的更智能的答案。
从杂乱的网页到结构化的实体知识,搜索引擎可以利用知识地图为用户提供更有组织的信息,甚至可以沿着知识地图探索更深、更广、更完整的知识体系,让用户发现自己意想不到的知识。谷歌高级副总裁埃米特·辛格(Emmett Singh)博士打破了知识地图的意义:“构成世界的是事物,而不是字符串。”
阿里知识地图
阿里的主要业务是电子商务。其知识地图以商品、标准产品、标准品牌、标准条形码和标准分类为核心,利用实体识别、实体链参考和语义分析技术,包括数百亿个三元组,整合了舆情、百科全书和国家行业标准等9大类一级本体,形成了一个庞大的知识网络。这些海量数据来自淘宝、天猫、1688、速卖通和其他市场。与此同时,品牌、行业运营、治理运营、消费者、国家机构、物流提供商和其他角色都参与其中,为这样一个巨大的商品库做出了贡献并做出了修正。保护知识产权、提升消费者购物体验、规范商品数据(商品规格的统一和商品信息的确定性),以及与内外数据的深度互联具有重要意义。例如,商品标准化可以让我们知道哪些商品是同一种产品,这样我们就可以确切地知道一个品牌是否被授权,以及该品牌下的产品销售到哪个市场。
阿里知识地图的应用
阿里的产品知识地图广泛应用于核心和创新业务,如搜索、前端购物指南、平台治理、智能问答和品牌运营。一个最明显的应用是阿里电子商务平台的控制。过去,商品放行只能通过人工“检验”来审核,但现在,面对数量巨大的商品放行,“检验”模式显然是不现实的。阿里知识地图就像一个过滤器,借助大数据和人工智能,可以防止不良企业和问题商品进入阿里生态。面对实时游戏、问题商家的变异和恶意攻击等诸多挑战,阿里知识地图每天可以维持数千万次拦截和数亿次智能审计,在垃圾邮件、侵权、合规、假冒商品和业务范围等多种场景下,全面对抗问题卖家,实时玩游戏。
以下内容来自阿里科技
为了最大限度地保护知识产权和消费者权益,阿里知识地图团队对知识地图推理引擎技术提出了更高的技术要求,如智能化、自学习、毫秒级响应和可解释性。
张伟博士(花名:map),阿里巴巴知识地图团队负责人
引入机器学习算法构建推理引擎
阿里知识地图研究团队设计了一个框架来实现知识表示和推理。此外,知识地图实体、关系、单词森林(同义词、上下单词)、垂直知识地图(例如地理位置地图、材料地图)和机器学习算法模型都被包括用于统一描述。
根据不同的情景,推理可以分为:上下位推理和等价推理;不一致的推理;知识发现推理;本体概念推理等。例如
1.上下位置推理与等价性。在搜索父类时,子类的对象通过上下推理进行召回,召回通过等价推理(实体的同义词、变体词、相同模型等)进行扩展。)。例如,为了保护消费者,我们需要截取“产地在核污染区的食品”,由推理机翻译为“在该区找到产地,属性项与“产地”同义,属性值为该区较低实体的食品,与被击中的食品相同。”
2.不一致的推理。在与问题卖家对战的过程中,我们需要检查卖家资质中的产品名称、属性、图片、产品资质、品牌、材质、成分等基本信息的一致性。例如,标题中的品牌是耐克,属性或标签中的品牌是耐克。如下图所示,左侧描述了产品的标题、属性和标签上的品牌信息是一致的,推理也是一致的。右边是标签和品牌不一致的商品,由推理引擎判断为有问题。
3.知识发现推理。一致推理的目的是确保信息的确定性。例如,通过一致的推理,我们可以确保数据涵盖的食物成分列表是正确的。但是消费者在购物时很少看配料单上复杂的数字。消费者真正关心的是具有强烈感知的知识点,比如无糖和无盐。为了改善消费者的购物体验,知识发现推理基于基础配料列表数据和国家行业标准,例如:
无糖:碳水化合物≤ 0.5克/100克(固体)或100毫升(液体)
无盐:钠≤5毫克/100克或100毫升
配料列表数据可以转化为知识点,如“无糖”和“无盐”。从而真正将数据转化为知识。通过ab测试验证,相似知识点极大地改善了消费者在前端导购中的购物体验。
推理机背后的技术框架
首先,推理机通过语义解析将自然语言转换成逻辑形式。语义分析是通过结合神经网络和符号逻辑实现的:自然语言通过语法、句法分析、自然语言和实体链接被编码成分布式表示,句子的分布式表示被进一步转义成逻辑表达式。
在将分布式表示转化为逻辑表达式的过程中,我们首先面临表示和谓词操作之间的映射问题。我们将谓词视为动作,并通过训练进行符号化,这类似于在神经程序设计器中使用注意机制来选择适当的操作,即选择最可能的谓词操作,最后根据所分析的语法将谓词操作拼接成可能的逻辑表达式,然后将逻辑表达式转换成查询。工艺示意图如下图所示。
其次,逻辑表达式将触发后续的逻辑推理和图形推理。逻辑表达在设计过程中遵循以下原则:逻辑表达接近人的自然语言,便于机器和人理解。表达能力满足知识地图数据和知识表示的要求。它应该很容易扩展,非常方便地添加新的类、实体和关系,并支持各种逻辑语言和系统,如datalog、owl等。也就是说,这些语言及其背后的算法模块是可插拔的,并且推理机可以通过可插拔函数来描述不同的逻辑系统。
以上述较低层次的等效推理为例:“来自中国的食物。”
用逻辑表达式描述为:
?x:食物(x)?(?y:同义词(y,origin)) (x,(?Z:包括下属实体(中国、Z))
然后找到相同的段落:
?t,x: ($c:属于产品(x,c)?属于产品(t,c))
此外,推理机还用于自动完成知识库。基于嵌入补充知识库。其主要思想是将知识库中的结构信息加入到嵌入中,考虑跨序列的特征,包括边缘、相邻点、路径、实体的文本描述(如细节)、图片等特征,用来预测和完成新的关系。
雷总结(公开号:雷锋网):以上是关于阿里知识地图团队和业务介绍。这个团队已经成立三年了。目前,已经形成了庞大的知识地图和海量的标准数据。与此同时,它与浙江大学的陈华军教授建立了一个联合项目小组,引进了尖端的自然语言处理、知识表示和逻辑推理技术。我相信将来人们通过电子商务购买假货的概率会越来越低。
雷锋。com
雷锋原创文章。严禁擅自转载。详情请参考转载说明。
标题:阿里知识图谱借助AI再升级,假货将无处躲藏
地址:http://www.hcsbodzyz.com/hcxw/6824.html