本篇文章8325字,读完约21分钟

雷锋。(公开号码:雷锋。艾科技评论出版社:徐阿恒,本文作者,原文发表在他的个人主页上,和雷锋。《科技评论》是他授权出版的。

8月16日,在北京中国科学院软件研究所举办的“自然语言处理前沿技术研讨会暨emnlp2017论文报告会”上,中国emnlp 2017聘请的部分论文作者应邀报告了他们的研究成果。整个讲座将分为四个部分:文本摘要和情感分析、机器翻译、信息抽取和自动问答、文本分析和演示学习。我觉得上次ccf-gair的笔记写得就像一个流水账,所以这次我会用不同的方式记笔记。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

本文分为四个部分,不包括所有共享的论文。第一部分写了我最喜欢的论文,第二部分总结了一些以模型融合为主要方法的论文,第三部分总结了一些关于微调模型组件的论文,第四部分是一个类似旧瓶子里的新酒的想法。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

我喜欢异步收集文本、图像、音频和视频的多模式摘要

异步文本、图像、音频和视频多模态摘要,一般的文本摘要侧重于显著性、非冗余性,这里则侧重于可读性、视觉信息和视觉信息,即图片信息,暗示事件的亮点。考虑一个视频新闻,它有视频模式和音频模式,也可以通过asr生成文本模式。问题是如何将这些模式连接起来,产生一个带有精彩图片的文本摘要。本文讨论了这个问题。整个模型的输入是主题的文本和视频,输出是带有图片的文本摘要。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

1.预处理:

从视频中生成图片:cv的基本思想是将视频切割成镜头(镜头/段落),每个镜头可以分成一个故事(场景),每个镜头可以细分为子镜头,每个子镜头可以用关键帧表示,关键帧被选为视觉信息。同时,人们认为远投比近投更重要。在此基础上,进行了图片的重要性分析

万字长文,深度解读11篇 EMNLP 2017 被录用论文

音频生成文本:asr。一方面,语音识别结果不是很准确;另一方面,在音频模式中有一些音频信号可以提示什么是重要的。基于这两点,将产生两个指导策略,这将在后面提到。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

2.给课文的重要性打分:

对于词串,句子是点,连接是重要的,随机行走是进行的,两个引导策略用于音频生成词的两个特征:

如果语音识别结果与文本句子的语义相同,让语音识别结果推荐文本,否则;

如果语音信号明显,语音推荐文本,反之亦然;

这两个指导策略将提高文本的可读性。

3.图像-文本匹配问题:

人们希望摘要能够覆盖视觉信息并解释图片,因此有必要制作一个文本图片分类器。图像vcr解码与两层前向网络相连,文本服从高斯分布,然后是fisher秩,fisher秩也与两层前向网络相连。最后,将两个文本映射到同一个语义空,并计算匹配度。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

一个问题是如何在复合句中提出从句。作者提出了一种基于传统语义角色标注的方法,利用中心谓词提取匹配框架信息(谓词、参数1、参数2)。其优点是,它可以提取语义上独立的部分,还可以通过设置框架(仅应用、接收和谓词)过滤图片中难以反映的信息,如时间。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

4.目标函数:

提到了三个目标函数:

对于文本:奖励文本的重要性,惩罚冗余

对于视觉:图片的重要性(镜头长度),它是否被文本摘要覆盖(是否有匹配)

平衡视觉信息和文本信息

以下针对多文档摘要的保持相似性的随机游走的多文档摘要也使用了图排序模型,这里省略了该模型。

常识机器理解的异构知识推理

关注两个问题:如何获得和表达常识知识?以及如何利用获得的常识知识进行推理?本文试图从许多不同来源的异构知识库中获取相关信息,并以带推理代价的推理规则的形式表达这些知识。采用基于注意机制的多知识推理模型,综合考虑以上所有知识完成推理任务。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

任务类型:在rocstories数据集上,给定一个故事的前四个句子,系统需要从两个候选句子中选择一个作为故事的结尾。

推理规则:知识以下列推理规则的形式统一表达。在关系f下,元素y可以从元素x推导出来,其推理成本为s。

灵魂

三种类型的知识主要来自不同的来源,包括:

事件序列知识(事件叙事知识)

捕捉时间和事件之间的因果关系(去餐馆->点餐)

两个模型被用来捕获这些信息,一个是基于有序的pmi模型,另一个是基于跳跃式向量化表示模型,其本质上是基于事件对在文本中有序共现的频率来计算推理规则的成本。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

实体语义知识(实体语义知识)

捕捉实体之间的语义关系。

以星巴克为例,捕捉到的第一个关系是实体间的共指,例如,“咖啡屋”是指星巴克。从wordnet获取实体间关系的知识。当且仅当x和y是同义词或具有下位词关系时,成本为1

万字长文,深度解读11篇 EMNLP 2017 被录用论文

第二种关系是联想的。例如,当星巴克出现时,可能会有一个相关的实体,如“拿铁咖啡”。通过维基百科中实体页面的链接关系,我们可以得到实体之间关系的知识,而成本就是两个实体之间的距离(milne和witten(2008)。(

万字长文,深度解读11篇 EMNLP 2017 被录用论文

情感连贯知识(感知连贯知识)

捕捉元素之间的情感关系

故事的结局应该与故事的整体情感基本一致,否则,结局会过于突兀,所以这个结局不是一个好的结局。从sentiwordnet中获取不同元素之间情感一致性的知识。如果两者都是主观的并且具有相反的情感极性,则成本为1;如果两者都是主观的并且具有相同的情感极性,则为-1;否则,0

万字长文,深度解读11篇 EMNLP 2017 被录用论文

上述推理规则的成本是以不同的方式计算的。本文采用了一种类似于度量学习的方法,通过给每一类推理规则增加一个非线性层,自动学习不同类别推理规则代价的标定。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

此外,由于否定的存在会颠倒事件关系和情感关系的推理结果,所以本文专门讨论了否定。

知识推理

如何将规则应用于阅读理解?换句话说,给定一个文档和候选答案,如何衡量候选答案是否正确?首先,将文档和候选答案划分为元素,将整个推理过程转化为选择推理规则和评估推理合理性的过程。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

重要假设:一套有效的推理应该能够涵盖结尾的所有元素。换句话说,出现在末尾的每个元素都应该能够在原始文本中找到其基础。

对于相同的文档和候选答案,我们可以有各种不同的推论。

上述推理是一套有效的推理,这与人类的认知非常一致。因为我们通常通过玛丽和她之间的实体指称关系、餐馆和点菜之间的顺序关系以及餐馆和食物之间的关联关系来判断这个结果是否真实。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

这是不太合理的,因为我们不考虑一个人和一个事件之间是否存在时间序列关系,而考虑步行到和食物这样的行动之间的关系。

采用各种推理的可能性是不同的。p(r|d,h)p(r|d,h)被用来模拟这个推理的选择。基于元素独立性的假设,得到以下公式

是否选择一个推理规则来参与假设元素hihi的推理取决于djdj的选择、在原始文本中hihi是从哪个元素推导出来的,以及djdj和hihi之间推理关系的选择。然后将概率分布重新定义为一个重要函数,它与三个因素有关:

万字长文,深度解读11篇 EMNLP 2017 被录用论文

s(h,d)

文档元素与候选答案元素之间的语义匹配度

A(h,f)和a(d,f)

一个元素和这个推理规则之间的关联度,由一个注意函数来模拟

从原始文本到候选文本的推理成本被定义为所有有效推理的预期成本

软最大值函数用于归一化所有候选的成本,最大后验概率估计用于估计模型中的参数。

实验

比较了三个基线:

叙事事件链(chambers and jurafsky,2008)

仅考虑事件之间关联信息

dssm (huang等人,2013年)

文档和候选答案表示为语义向量,并计算它们之间的语义距离

Lstm模型(pichotta和mooney,2015)

通过按顺序对以前的事件建模,可以预测未来事件的概率。

不同知识的影响

每一种知识都可以发挥作用,删除任何一种知识都会导致系统性能的显著下降。

添加注意机制对推理规则选择的影响

其他的

首先,推理规则如何产生越来越复杂的推理?第二是训练数据。一方面,常识性阅读理解数据仍然非常匮乏,可能需要半监督或远程监督的方法来扩充训练数据;另一方面,可能有必要扩展更多的数据源。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

通过具有近似嵌入层的gan产生神经响应

生成性聊天系统可以看作是一个特殊的翻译过程。问答对相当于smt需要处理的平行语料库,smt的训练过程实际上相当于问答中单词的语义关联过程。作为smt的高级版本,Nmt可以用来自动生成聊天回复。这种新的自动聊天模型的结构被称为神经反应生成(nrg)。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

目前,nrg的问题是生成的答案非常相似,没有实用价值。例如,对于任何用户查询,生成的结果可能是“我想是的”或“我想是的”,这称为安全响应。安全响应有以下原因:

万字长文,深度解读11篇 EMNLP 2017 被录用论文

聊天语料库的数据分布

统计模型的基本性质

聊天数据中句子不同位置的词的概率分布具有非常明显的长尾特征。尤其是在句首,聊天回复中很大一部分是以“我”和“叶”开头的句子。单词概率分布模式将首先由解码器的语言模型来学习,而单词关联模式在查询和响应之间的作用将在生成过程中被严重抑制。也就是说,即使以查询的语义向量作为条件,解码器仍然会选择概率最高的“我”作为响应的第一个单词,并且由于语言模型的特点,下一个单词很可能是“你”等等,从而产生安全的响应。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

常见的解决方案包括:通过引入注意机制来加强查询中的关键语义信息;弱化解码器中语言模型的影响;引入用户建模或外部知识也可以增强所产生的响应的多样性。这些实际上是当地对模型或数据的看法。如果我们从更全局的角度考虑安全响应问题,我们会发现产生安全响应的s2s模型实际上陷入了局部最优解,但我们需要的是对模型施加一个扰动,使其跳出局部最优解,进入一个更优化的状态。那么最简单的正扰动就是告诉模型,它产生的安全响应是一个很差的结果,尽管产生这样一个结果的损失很小。于是,生成性对抗网络在生成性聊天问题上的曲折探索开始了。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

将Gan引入到聊天应答生成的思想中:使用编码器-解码器结构来构建应答生成器g,其负责生成指定查询的应答。同时,建立一个鉴别器d来判断产生的结果离真实响应有多远,并根据鉴别器的输出调整发生器g,使其跳出产生安全响应的局部最优情况。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

一个重要的问题是如何实现鉴别器D的训练误差向生成器G的反向传播。对于文本的生成,文本样本的生成将不可避免地伴随着生成器G在输出层对单词的采样过程。不管这个采样遵循的原则是选择最大概率的贪婪思想还是波束搜索,它实际上都引入了离散操作。这种不导电的过程就像道路上突然出现的悬崖,阻碍了反向传播,使对抗训练无法进行。针对文本生成过程中采样操作产生的误差无法传递的实际问题,提出了一种解决方案。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

本文为生成器g构造了一个近似的嵌入层(ael在图中的红色矩形框中显示,其细节在图的右侧给出)。该层的功能是近似表达每个采样过程。在每个生成步骤中,不是试图获得特定的单词,而是基于单词的概率分布来计算采样向量。该操作的具体过程是,在每个生成步骤中,gru输出的隐藏状态hihi在添加随机干扰zi zi zi并通过全连接层和softmax后,得到整个词汇表中每个单词的概率分布。我们使用该概率分布作为权重,对词汇表中所有单词的嵌入进行加权和求和,从而获得当前采样单词的近似矢量表示(如图右侧的绿框所示),该矢量表示可用作下一个生成步骤的输入。同时,这个近似向量也可以用来拼接假反应的表示,用于训练D..不难看出,采样结果的近似表示是连续可导的,而这种近似表示的引入并没有改变模型g的训练目标

万字长文,深度解读11篇 EMNLP 2017 被录用论文

取得了良好的效果。

详细戳启动器!emnlp接受的三角野兽:基于对抗学习的生成性对话模式简介

模型融合

传统模型与神经网络相结合。

神经机器翻译中的短语翻译

目前,在nmt中,解码器不能翻译一对多和多对多,也就是说,它不能翻译目标语言短语,但smt可以,所以想法是将二者结合起来。一般来说,有两种方法可以结合,一种是浅层的,把nmt作为一个特征放入传统框架中进行预调整;第二,深层次的,短信向网管提出建议,网管通过神经网络的方式接收短信。本文采用第二种方法。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

Smt将其翻译一次,将相关的目标短语扔进nmt的短语存储器中,nmt从短语存储器中读取目标短语并对它们进行评分,然后系统同时查看目标短语和单词预测器的结果。使用平衡器结合smt和nmt的优点来判断下一个单词或短语的可能性,并决定选择哪一个。因此,平移y = y1,y2,...,ytuy = y1,y2,...ytu实际上由两个片段组成,单词预测器w = w1,w2,...,wkw = w1,w2,...nmt和相关短语p = P1,p2,...翻译不重复(覆盖范围))

万字长文,深度解读11篇 EMNLP 2017 被录用论文

另一点是作者还提出了基于语块的翻译。smt从源中提取组块信息,使用布什总统和美国政府作为smt的组块进行预翻译,然后将它们写入短语存储器,以下步骤不变。组块的实现主要是通过序列标注来完成的。相同的标记表示相同的块,并且开始符号被单独标记。例如,“信息安全”被标记为“np _b np ”,然后新的输入变成原始的单词嵌入和分块标签嵌入。组块的优点在于它限制了源端短语的信息,一方面减少了短语之间的重叠,另一方面提高了解码的准确性。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

机器翻译相关邮票

Nlp笔记-机器翻译

神经机器翻译

问题是smt不是很强(很难保证准确性),nmt也不是很弱(逐字翻译也能翻译出正确的短语)

在神经关系抽取中引入关系路径

本文提出对文本中的关系路径进行建模,并结合cnn模型(曾等(2014))。通过协同深层神经网络的关系分类。cgling)来完成关系抽取的任务。

在传统的基于cnn的方法中,通过cnn将原始文本自动映射到特征空,并在此基础上判断句子所表达的关系

有线电视新闻网模型的问题是很难理解多句子文本的语义信息。例如,A是B的父亲,B是c的父亲,不可能得到A和c之间的关系,基于此,本文提出了一种引入基于神经网络的关系路径编码器的方法,它实际上是原始的单词嵌入输入加上一层位置嵌入。当前单词和头实体/尾实体之间的相对路径由两个向量表示。然后使用α α来平衡文本编码器(e)和路径编码器(g)。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

l(h,r,t)=e(h,r,t|s)+αg(h,r,t|p)

编码器还采用多实例学习机制,使用一个句子集来共同预测关系。句子集的选择方法包括随机法、最大化法、选择-注意机制,其中注意机制的效果最好。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

实验结果:

之后,可以继续两个改进方向。一是对多步关系路径进行建模,使模型能够处理更复杂的语义情况。而是将文本中的关系路径和知识地图中的关系路径有机地结合起来,更好地完成关系抽取和知识地图完成的任务。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

零件调整

现有模型零件的调整和重建。

多语言通用情感分类器的研究

我在这里发现有趣的是,作者模仿skip-gram模型,同时提出了一种训练多语言嵌入的方法。一种句子解释是通过中心词来预测自己/其他语言周围的单词。例如,在双语预测中,需要让汉语预测汉语的周边词,英语学习英语的周边词,通过对齐学习汉语预测英语,英语预测汉语。与Skip-gram相关的邮票矢量摘要注释(简短版本)。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

作为源语言s和目标语言t之间的平行语料库,该语料库可分为cscs和ctct,其目标函数如下

然后使用lr模型对情绪进行分类。

具有单词预测的神经机器翻译

我们知道在nmt中,训练成本主要来自整个目标词汇输出层的软最大值计算。为了降低这一成本,学者们做了各种努力。例如,devlin等人(2014)从计算的角度提出了自归一化技术。通过修改目标函数,计算整个矩阵的步骤被优化为仅计算输出层中每一行的值。在本文中,作者提出了一种减少目标动词的方法,该方法主要使用词预测器。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

以前mt的目标是生成有序序列,但现在单词预测器的目标是生成y1..yn单词,但不考虑顺序。

在与上述相同的思想和单词预测中,初始状态(wpewpe)应该包含目标句子中的所有信息,而隐藏状态(wp_d)应该包含未翻译单词的所有信息。

pwpe(y | x)= 1 | y | pwpe(yj | x)pwpe(y | x)= 1 | y | pwpe(yj | x)

Pwpd(yj,yj+1,…,y|y||y)在效果和效率方面都有显著提高

这种方法的好处是目标中的单词是单词预测的自然标记,而且结构简单。然而,我们应该注意两点:准确预测和快速预测,否则它将失去意义。另一个问题是,从理论上讲,词汇量越大质量越好,但翻译效率低。正如本文所提出的,提前翻译一个句子可以预测生成一个新的小词汇量并将其提供给解码器,这无疑会提高效率,但是为什么质量会更好呢?我不太明白。我在等我的论文。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

面向基于注意的神经机器翻译的双向层次表示

传统树型编码器的改进。传统的基于树的编码器是一种自下而上的结构,它可以捕捉局部信息,但不能捕捉全局信息

本文对基于树的编码器进行了改进,以捕获局部语义信息和全局语义信息。

自底向上编码获取本地信息,自顶向下编码获取全局信息。对于OOV(非言语)问题,基于子词,一个二进制词汇树被单独构建并集成到原始句法树中。这样,如下图所示,该模型包含了句子、短语、词和子词的各种全局/局部信息,表现力最大。然而,同样的问题是,会有重复的信息,这可能导致重复翻译。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

为了解决重复翻译或词短语向量的平衡问题,本文还引入了注意机制

效果有所改善。举例说明基于树的编码器的优点。普通的序列编码器在翻译pp时会出现错误,普通的树型编码器可以很好的翻译pp,但与国外相比还有差距,所以翻译新版树型解码器没有压力。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

迁移想法

事实上,它是使用现有的模型/想法,这些模型/想法可以用于其他方面来解决当前的问题。

一种用于情感原因抽取的问答方法

这部分以前没有研究过。让我们看看什么是情感原因提取

1文件:我昨天丢了手机,现在很难过。(我昨天丢了手机,现在很难过。(

情绪:悲伤

3情感表达:我很难过

情感原因:我昨天丢了手机

任务目标是根据文本信息和其中包含的情感表达提取情感原因。本文作者以前发表过一篇论文,使用基于依存句法分析的方法将情感原因转化为树分类任务,但结果依赖于依存句法分析的准确性,只能处理子句/句子层面的原因,而不能处理细粒度短语层面的原因。为此,本文改变了思维方式,将情感原因抽取问题转化为问答问题,提出了一种基于卷积的多层记忆网络方法。结果是比前一个基于树的方法高了两个点。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

1情感文本= >阅读文本

2个情感词= >问题/查询

3情感导致二元分类结果= >答案

以传统的记忆网络为基本模型,阅读文本通过存储在记忆单元中的词向量嵌入来表达,待判断情感词的词向量作为注意单元,查询和文本的每个词都用内积运算,softmax归一化为词权重,加权注意和作为整个句子的表达。为了引入单词的上下文,使用了一种类似卷积的注意力加权方法。每个单词的注意力由当前单词、前一个单词和后一个单词决定。在加权过程中,根据上下文关注度对不同位置的词进行加权,加权结果以短语窗口的形式获得,然后输出。与此同时,内存网络被堆叠在多层中,以了解更深层次的功能。最后,提高了效果,在短语层面提取情感原因取得了良好的效果。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

问题是,查询是如何产生的?= >数据集标有情感表达词!

无监督双语词典归纳的地球移动距离最小化

本文主要研究无监督的双语对齐方法,即可以无监督地连接两个词向量空。本质上,它需要测量单词向量空之间的距离,或者单词向量的分布。利用经验模态分解的思想,目标是找到一个映射G,从而使源语言的映射词向量分布和目标语言的词向量分布之间的经验模态分解或瓦瑟斯坦距离最小。论文发表后我们会研究它。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

深度记忆网络下的汉语零代词消解

解决汉语零指代消解问题。主要思想是使用上下文来表示zp,并使用两个lstm,一个用于对前面的文本建模(从左到右),另一个用于对后面的文本建模(从右到左),然后将两边最后一个隐藏层的向量连接起来作为azp的表达式(或者尝试求平均值/求和)

万字长文,深度解读11篇 EMNLP 2017 被录用论文

然后,给定一个azp,将提取一个np集合作为候选顶点,并根据每个候选顶点的重要性生成一个额外的内存。通过减去之前lstm生成的隐藏向量对候选先行词进行编码,然后连接上下向量生成最终向量作为候选先行词的最终表达式,并存储在外部存储器中。

万字长文,深度解读11篇 EMNLP 2017 被录用论文

这样,在我们的记忆中有很多候选的npS,然后我们应该对候选NPS的重要性进行排序,选择合适的NPs来填补这个空白(zp)。这里使用了注意机制,增加了一些人工特征(chen和ng (2016)),表示为v(特征)tvt(特征)

万字长文,深度解读11篇 EMNLP 2017 被录用论文

这个模型使用了人工特征,可以改进吗?以及如何应对oov?

摘要

听了整个报告后,有了一些收获,但并不像想象的那样令人惊讶。更换零件,增加注意力,并融入传统特色,给人的感觉是换汤不换药。听得太多之后,情况就是这样。最大的收获可能是再次实现了强注意力机制,而且大多数论文都使用了注意力,结果得到了很大的改善。总之,能提高准确率/训练效率的模型是一个好模型!每个人都很棒!学习!

万字长文,深度解读11篇 EMNLP 2017 被录用论文

雷锋文章版权所有。严禁擅自转载。详情请参考转载说明。

标题:万字长文,深度解读11篇 EMNLP 2017 被录用论文

地址:http://www.hcsbodzyz.com/hcxw/6149.html