本篇文章3750字,读完约9分钟

雷技术评论:深度学习在过去的十年里在各个领域都取得了巨大的成功,但是当深度学习技术应用到实际问题中时,往往会遇到很多挑战。阿里巴巴作为一个在电子商务领域拥有众多业务的企业,对深度学习有着巨大的需求。不可避免的是,当他们将深度学习应用到他们的业务中时,他们将会遇到许多学术界无法解决的问题。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

不久前,在刚刚过去的2017年ijcai大会上,阿里巴巴集团idst总裁金荣做了关于阿里巴巴深度学习的报告。在报告中,金荣介绍了深度学习在阿里巴巴业务中的一些应用以及一些正在进行的研究。以下内容是由雷锋编辑的。(公开号码:雷锋。根据ijcai收录的《阿里巴巴深度学习》的实地报告和论文记录。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

首先,讲座目录

金荣的讲话有四个主要内容。如ppt所示:

1.计算机视觉。包括视觉搜索、图像分类和跨媒体检索。金荣将从帕特·李涛的业务开始搜索图片,并通过迁移学习处理后两个问题。

2.语音识别和自然语言处理。包括三个部分:声学模型、依存语法和模仿问答。

3.关于组合优化的讨论。在这次讨论中,金荣介绍了两个问题:三维装箱和横幅的自动设计。前者在菜鸟交货季节节省了大量成本,而后者在双十一季节节省了大量人力物力。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

4.模型简化。包括模型的压缩和通过浅层网络的试验工作。

在介绍对阿里巴巴业务的深入学习之前,金荣博士介绍了阿里巴巴企业的生态环境。作为一家电子商务企业,阿里巴巴的购物平台包括淘宝、天猫、巨化、朱非、速卖通、拉扎达(东南亚最大的网上购物网站之一)等。在此基础上,它还涉及到很多领域,如蚂蚁金融、阿里妈妈、微博、高德地图、uc浏览器、优酷土豆、新秀等。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

金浩还整理了阿里巴巴业务中应用的深层学习问题,包括:

1、信息检索(搜索和推荐系统);

2.语音技术(自动语音识别、语音合成、对话管理);

3.自然语言处理(拼写检查、依存语法、问答和机器翻译);

4.图像/视频内容分析(人脸、文本识别、匹配和微粒分类;多形态分类;目标检测、跟踪和识别;视频事件检测和分类);

5.深度学习和优化(优化、模型压缩、预测;道路规划和图标设计)

第二,计算机视觉1,拍摄李涛

阿里巴巴的淘宝业务之一是“排李涛”。基本思想是搜索图片,对你感兴趣的商品拍照,系统会根据图片向你推荐相关产品。据金荣称,现在有超过1亿种产品的30亿张图片,每天至少有1200万活跃用户。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

这项业务的基础是通过深入学习对结果进行分类。Ali研究人员通过用户记录的三重数据(查询图片、点击图片和点击图片)训练模型的排序损失函数,得到排序结果。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

例如,如果你上传一张桌子的照片,模型会自动检测出主题,然后将相关产品的结果从高到低排序。

2.从帕特·李涛到一切——迁移学习

Pat Litao业务的本质是图像匹配,因此该模型可以通过迁移学习从电子商务应用到其他领域。传统的迁移学习方法如图所示,其中通过线性变换将帕特·李涛的图像的矢量表示X’迁移到其他领域的图像表示X’。w是一个线性转移矩阵,可以通过有限的数据学习得到。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

这种方法相对简单,但由于实际应用中源与目标之间存在较大的差距,线性模型不能很好地调和这种差距。金荣介绍说,在阿里的迁移研究中,他们引入了随机傅立叶函数,将迁移变换从线性变为非线性。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

实验表明,这种非线性迁移学习方法比线性迁移学习方法具有更高的精度和更好的鲁棒性。

第三,语音识别和自然语言处理1。声学模型

自动语音识别包括声学模型、语言模型和解码器。这里只讨论声学模型。基于声学模型的神经网络在过去的五年中取得了很大的进步,单词识别的错误率下降到了5.9%。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

目前,常用的声学模型是双向长短期模型。与长期记忆模型相比,该模型具有较高的准确性,但潜在因素也很大。阿里的研究人员开发了潜伏期控制的blstm,它增加了删除和未来信息的反向传播,并能加速blstm的计算。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

2.依赖解析

非专业人士仍然很难理解依存语法的问题。简单地说,主语和描述主语的词之间的关系是通过依存语法来构建的。由于依存语法没有短语层次,每个节点对应一个句子中的一个单词,它可以直接处理句子中单词之间的关系。这个特性使得句子分析和信息提取非常方便。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

近年来,人们在将神经网络应用于语法分析方面取得了很大的成功。一个很好的例子是biaffine注意分析器,它的基本思想是对每个可能的主题和其他单词之间的关系进行评分。但只是为了你感兴趣的词。在淘宝上,阿里的研究人员采用了全球监管机构的bap,以这种方式获得的结果有更好的表现。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

例如,在上面的例子中,传统的bap将麻烦与衰退联系在一起,但事实上它们并不相关;然而,全球监管机构的bap显示了更好的结果。

3.模仿问题和答案

金荣博士在这里简单介绍了模拟的质量保证系统。这个系统不仅仅是建立一个问答系统,更重要的是,让你感觉你在和一个真实的人说话。如图所示,它首先通过语音识别将用户的语音问题转换成文本,然后通过文本问答系统生成答案,然后生成语音答案和相应的面部表情。用户最终通过模仿真人的面部表情得到答案。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

四.组合优化在这一部分,金荣通过两个例子来说明阿里如何将深度学习的组合优化应用到商业中——三维装箱和自动设计横幅。

1.3d容器的包装

物流业务中一个常见的np问题(也是一个组合优化问题)是3d集装箱包装:我们如何更有效地包装货物?这个问题的本质是找到一个优化的包装方法(启发式)。但是打包的方式太多了,所以困难在于如何知道什么时候打包,用哪种方式打包。金荣介绍了他的团队如何通过指针网络和强化学习给出优化计划。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

在包装过程中有三个关键决定:1)包装项目的顺序;2)放置物品的位置;3)物品放置的方向。因此,要解决的问题是顺序、位置、方向等的最佳顺序。

模型中的指针网络由回归神经网络的两个rnn模块(编码器和解码器)组成。网络的输入是待包装物品的尺寸顺序,输出是包装顺序(顺序、位置和方向,它们不一定是最佳的)。当给出包装顺序时,包装这些物品所需的最小容器可以很容易地计算出来。然后,通过深入学习,我们可以快速找到优化的包装方法。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

阿里团队将通过模拟数据训练模型,然后将结果应用于天猫和菜鸟的物流包装。结果表明,强化学习后的包装方法可以节省5%的包装盒。5%的优化对于普通人来说可能并不重要,但是考虑到物流公司每天要处理成千上万的包裹,这种优化结果将节省大量成本。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

2.横幅的自动设计

在购物网站上,好的横幅会给用户带来更好的体验。阿里巴巴平台上展示了大量的产品,尤其是双十一光棍节,横幅的需求量很大,所以手工设计显然是不现实的。所以他们将深度学习应用到班纳的设计中。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

具体来说,横幅是框架、背景、对象和其他材料的组合序列。这些材料的组合被输入到卷积特征网络中,并且用户日志被添加以形成价值网络,这将最终给出横幅质量。用这种方式设计网络广告,显然可以节省人力,更快地响应需求,获得更好的效果。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

V.模型压缩和浅网

如今,深度学习模型变得越来越复杂,甚至有些模型已经超过1000层,参数空达到10亿。这使得深度网络神经学习难以在具有优先内存和计算资源的情况下运行。金荣在这里提到了阿里的两个解决方案:模型压缩和浅网模型构建。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

1.模型压缩

在演讲中,金荣提出了一个低比特量化神经网络的框架,使用乘法器交替方向法(admm)来压缩模型。

当模型很大时,我们有时可以通过寻找次优解来减少计算量。常用的近似方法是对连续函数进行低位量化,用符号函数f(w)或硬双曲正切函数g(w)代替w。然而,用这种方法逼近的目标函数在最优解附近是不稳定的。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

为了解决这个问题,他们引入了交替方向乘数法(admm)。Admm是一个解决优化问题的计算框架。它可以结合连续解和离散解,非常适合于求解分布式凸优化问题。此外,为了更有效地运行admm,他们还开发了一种额外的梯度下降法来解决优化问题,可以加快收敛速度。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

通过对imagenet数据集的测试,结果表明其方法优于其他方法,三位(-1,0,1)方法的精度与全精度相比几乎没有损失。

2.深层网络vs .浅层网络

如前所述,当人们想找到更好的解决方案时,他们通常会求助于更深层的神经网络。该网络的预测函数通常是预先确定的,并且参数彼此独立。虽然这种方法有很好的性能,但由于其庞大的模型和计算量,训练起来非常困难,而且使用起来很昂贵。因此,他们想知道是否有可能通过构造复杂的激活函数将高度非线性引入预测函数,从而取代神经网络的深层优势。换句话说,他们想用一个非常复杂的激活函数来开发一个相对较浅的网络。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

这一思想是受cybenko等人的普适近似定理的启发,根据这一理论,存在一个严格递增的反曲激活函数σ。它具有以下性质:对于任何函数f ∈ c [0,1]n和任何精度极限ε > 0,存在常数d(输入参数的维数)、c、θ、γ和向量w,它们满足图中的不等式。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

换句话说,这一理论意味着存在一个复杂的双曲激活函数,因此任何连续函数都可以被具有两个隐藏层的神经网络很好地逼近。搜索非线性激活函数的优点是激活函数是单变量函数,即使在非参数设置下也能有效地优化。目前,这项研究还在进行中,还存在许多困难。

iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

雷锋网注:参考论文“阿里巴巴深度学习”

雷锋原创文章。严禁擅自转载。详情请参考转载说明。

标题:iDST院长金榕IJCAI演讲:阿里巴巴的深度学习应用(附PPT)

地址:http://www.hcsbodzyz.com/hcxw/10318.html