这是两篇系列文章中的第一篇。该系列在自然语言处理前沿会议的基础上展开赫尔曼·坎普而我在深度学习Indaba 2018．可以找到整个会议的幻灯片在这里．这篇文章将讨论NLP的主要最新进展，关注基于神经网络的方法。第二篇文章将讨论NLP中的开放问题。

免责声明这篇文章试图将15年的工作浓缩为八个今天最相关的里程碑，因此省略了许多相关和重要的进展。特别是，它严重倾向于目前的神经方法，这可能给人一种错误的印象，即在这一时期没有其他方法具有影响力。更重要的是，本文中介绍的许多神经网络模型都建立在同一时代的非神经里程碑上。在这篇文章的最后一部分，我们强调这些有影响力的工作为后来的方法奠定了基础。

表的内容:

神经语言模型

语言建模是在给定前一个单词的情况下预测文本中下一个单词的任务。它可能是最简单的语言处理任务，具有具体的实际应用，如智能键盘以及电子邮件回复建议(Kannan et al.， 2016)。毫不奇怪，语言建模有着丰富的历史。经典的方法是基于字格并采用平滑处理不可见的n-grams (Kneser & Ney, 1995)。
第一个神经语言模型，前馈神经网络是由Bengio等人在2001年提出的，如下图1所示。

图1:前馈神经网络语言模型(Bengio等，2001;2003)

的输入向量表示形式n以前的单词，在表格中查找C．现在，这样的向量被称为词嵌入。这些单词嵌入被串联起来，并被输入到一个隐藏层中，该隐藏层的输出随后被提供给一个softmax层。有关该模型的更多信息，请看这篇文章．
最近，前馈神经网络已被循环神经网络(rnn;Mikolov等人，2010)和长短期记忆网络(LSTMs;Graves, 2013)的语言建模。近年来提出了许多扩展经典LSTM的新语言模型(看看吧)这个页面概述)。尽管有这些进展，经典的LSTM仍然是一个强有力的基线(Melis等人，2018年)。甚至Bengio等人的经典前馈神经网络在某些情况下也与更复杂的模型竞争，因为这些模型通常只学习考虑最近的单词(Daniluk等人，2017年)。更好地理解这些语言模型最终捕获的信息是一个活跃的研究领域(Kuncoro等人，2018;布莱文斯等人，2018)。

当应用rnn时，语言建模通常是首选的训练场地，并且成功地捕捉了想象力，许多人是通过Andrej的博客文章．语言建模是一种无监督学习的形式，Yann LeCun也称之为预测学习，并将其作为获得常识的先决条件在这里他的蛋糕幻灯片从NIPS 2016)。可能语言建模最显著的方面是，尽管它很简单，但它是本文后面讨论的许多进步的核心:

单词嵌入:word2vec的目标是简化语言建模。
序列对序列模型:这类模型通过每次预测一个单词来生成输出序列。
预训练语言模型:这些方法使用来自语言模型的表示进行迁移学习。

反过来，这意味着NLP中许多最重要的最新进展都归结为一种语言建模的形式。为了做到“真正的”自然语言理解，仅仅从文本的原始形式中学习可能是不够的，我们需要新的方法和模型。

2008年——多任务学习

多任务学习是在多个任务训练的模型之间共享参数的一种通用方法。在神经网络中，这可以通过绑定不同层的权重轻松完成。1993年，Rich Caruana首次提出了多任务学习的概念，并将其应用于道路跟踪和肺炎预测(Caruana, 1998)。直观地说，多任务学习鼓励模型学习对许多任务都有用的表示。这对于学习一般的、低级的表示特别有用，可以集中模型的注意力，或者在训练数据数量有限的情况下。关于多任务学习的更全面的概述，请看这篇文章．

2008年，Collobert和Weston首次将多任务学习应用于NLP的神经网络。在他们的模型中，查找表(或词嵌入矩阵)在两个接受不同任务训练的模型之间共享，如下面的图2所示。

图2:单词嵌入矩阵的共享(Collobert & Weston, 2008;科洛伯特等人，2011)

共享单词嵌入使模型能够协作并共享单词嵌入矩阵中的一般底层信息，这些信息通常构成模型中最大数量的参数。2008年科洛伯特和韦斯顿的论文证明其影响力超出了多任务学习的用途。它率先提出了诸如预训练词嵌入和使用卷积神经网络(CNNs)处理文本等想法，这些想法在过去几年才被广泛采用。它赢得了ICML 2018的时间考验奖(参见本文背景的时间考验奖演讲在这里)．

多任务学习现在广泛应用于NLP任务中，利用现有或“人工”任务已经成为NLP的一个有用工具。要了解不同辅助任务的概述，请看这篇文章．虽然参数的共享通常是预先定义的，但在优化过程中也可以学习不同的共享模式(Ruder et al.， 2017)。随着越来越多的模型被用于评估多任务的泛化能力，多任务学习变得越来越重要，最近提出了专门的多任务学习基准(Wang et al.， 2018;McCann等人，2018)。

2013年——单词嵌入

稀疏向量表示文本，即所谓bag-of-words模型在NLP中有着悠久的历史。单词的密集向量表示或单词嵌入早在2001年就被使用了，就像我们上面看到的那样。Mikolov等人在2013年提出的主要创新是通过去除隐层和逼近目标，使这些词嵌入的训练更有效。虽然这些变化本质上很简单，但它们与高效的word2vec实现一起实现了单词嵌入的大规模训练。

Word2vec有两种风格，在下面的图3中可以看到:连续词袋(CBOW)和跳过词。它们的目的不同:一种是根据周围的词来预测中心词，而另一种则相反。

图3:连续的词袋和跳过克体系结构(Mikolov等人，2013a;2013 b)

虽然这些嵌入在概念上与用前馈神经网络学习的嵌入没有区别，但在一个非常大的语料库上进行训练，使它们能够捕获单词之间的某些关系，如性别、动词时态和国家-首都关系，如下面的图4所示。

图4:word2vec捕获的关系(Mikolov et al.， 2013a;2013 b)

这些关系及其背后的意义引发了人们对单词嵌入的最初兴趣，许多研究调查了这些线性关系的起源(Arora等人，2016;米姆诺&汤普森，2017;Antoniak & Mimno, 2018;温兰德等人，2018年)。然而，巩固词嵌入作为当前NLP的一个主流的原因是，使用预先训练的嵌入作为初始化被证明可以在广泛的下游任务中提高性能。

虽然word2vec捕捉到的关系具有一种直观的、近乎神奇的品质，但后来的研究表明，word2vec本身并没有什么特别之处:单词嵌入也可以通过矩阵分解学习(Pennington等人，2014;Levy & Goldberg, 2014)，通过适当的调优，经典的矩阵分解方法如SVD和LSA也能达到类似的结果(Levy et al.， 2015)。

从那时起，许多工作都在探索单词嵌入的不同方面(如原始论文被引用的数量惊人)．看一看这篇文章了解一些趋势和未来的发展方向。尽管有了许多发展，word2vec今天仍然是一个受欢迎的选择和广泛使用。Word2vec的应用范围甚至已经超出了单词级别:带有负采样的跳过格，这是学习基于本地上下文的嵌入的方便目标，已被应用于学习句子的表示(Mikolov & Le, 2014;Kiros等人，2015年)，甚至超越NLP，到网络(Grover & Leskovec, 2016年)和生物序列(Asgari & Mofrad, 2015年)等。

一个特别令人兴奋的方向是将不同语言的单词嵌入到同一空间，以实现跨语言迁移。以完全无监督的方式学习良好的投影(至少对于类似的语言是这样)变得越来越可能，这为低资源语言和无监督机器翻译打开了应用程序(Lample et al.， 2018;Artetxe等人，2018)。看看(Ruder等人，2018年)的概述。

2013年——用于NLP的神经网络

2013年和2014年是神经网络模型开始被应用于自然语言处理的时期。三种主要类型的神经网络被广泛使用:循环神经网络，卷积神经网络和递归神经网络。

循环神经网络(RNNs)是处理自然语言处理中普遍存在的动态输入序列的明显选择。香草型rnn (Elman, 1990)很快被经典的长-短期记忆网络(Hochreiter & Schmidhuber, 1997)所取代，事实证明，这种网络对脑损伤更有弹性消失和爆发梯度问题．2013年之前，rnn仍然被认为很难训练;Ilya Sutskever的博士论文是改变这种名声的一个重要例子。在下面的图5中可以看到LSTM单元格的可视化。双向LSTM (Graves等人，2013年)通常用于处理左右上下文。

图5:LSTM网络(来源:克里斯Olah）

随着卷积神经网络(CNNs)在计算机视觉领域的广泛应用，它们也开始应用于语言(Kalchbrenner et al.， 2014;Kim et al.， 2014)。文本的卷积神经网络只在二维上工作，过滤器只需要沿着时间维度移动。下面的图6显示了NLP中使用的典型CNN。

图6:用于文本的卷积神经网络(Kim, 2014)

卷积神经网络的一个优点是它们比RNN更可并行化，因为每个时间步的状态只依赖于局部上下文(通过卷积操作)，而不是像RNN中那样所有过去的状态。cnn可以使用扩展卷积扩展更宽的接受域，以捕获更广泛的环境(Kalchbrenner等人，2016年)。cnn和LSTM也可以组合和堆叠，卷积可以用来加速LSTM。

rnn和cnn都将语言视为一个序列。然而，从语言学的角度来看，语言是固有的层次:单词被组合成高阶短语和子句，这些短语和子句本身可以根据一组生成规则递归组合。从语言学的角度出发，将句子视为树而不是序列的想法产生了递归神经网络，如图7所示。

图7:递归神经网络(Socher et al.， 2013)

递归神经网络从下往上构建一个序列的表示，而rnn处理从左到右或从右到左的句子。在树的每个节点上，通过组合子节点的表示计算新的表示。由于树也可以被视为对RNN施加不同的处理顺序，lstm自然被扩展到树。

不仅仅是rnn和lstm可以扩展来处理层次结构。单词嵌入的学习不仅可以基于局部，也可以基于语法上下文(Levy & Goldberg, 2014);语言模型可以基于句法堆栈生成单词(Dyer et al.， 2016);图卷积神经网络可以在一棵树上运行(Bastings等人，2017)。

2014 -序列对序列模型

2014年，Sutskever等人提出了序列到序列学习，这是一种使用神经网络将一个序列映射到另一个序列的通用框架。在该框架中，编码器神经网络将一个句子符号一个符号地处理，并将其压缩成一个向量表示;然后，一个解码器神经网络根据编码器状态预测每个符号的输出符号，在每一步都将先前预测的符号作为输入，如下面的图8所示。

图8:序列对序列模型(Sutskever et al.， 2014)

机器翻译被证明是这个框架的杀手级应用程序。2016年，谷歌宣布开始用神经MT模型取代其基于单片短语的MT模型(Wu等人，2016)。根据Jeff Dean的说法，这意味着用500行神经网络模型取代50万行基于短语的MT代码。

由于该框架的灵活性，它现在是自然语言生成任务的首选框架，不同的模型承担编码器和解码器的角色。重要的是，解码器模型不仅可以以序列为条件，还可以以任意表示为条件。例如，它支持根据图像(Vinyals等人，2015年)(如下面的图9所示)、基于表的文本(Lebret等人，2016年)、基于源代码更改的描述(Loyola等人，2017年)以及许多其他应用程序生成标题。

图9:根据图像生成标题(Vinyals等，2015)

序列对序列学习甚至可以应用于自然语言处理中常见的结构化预测任务，其中输出具有特定的结构。为了简单起见，输出是线性化的，如下面的图10中的选区解析所示。神经网络已经证明了在提供足够的训练数据用于选区解析(Vinyals等人，2015年)和命名实体识别(Gillick等人，2016年)等情况下，直接学习产生这样线性化输出的能力。

图10:线性化选区解析树(Vinyals等，2015)

用于序列和解码器的编码器通常基于rnn，但也可以使用其他模型类型。新的体系结构主要来自于MT的工作，它充当了序列到序列体系结构的培养皿。最近的模型是深度LSTMs (Wu等人，2016)，卷积编码器(Kalchbrenner等人，2016;Gehring等人，2017)、变压器(Vaswani等人，2017)，这将在下一节中讨论，以及LSTM和变压器的组合(Chen等人，2018)。

2015 -关注

注意力(Bahdanau et al.， 2015)是神经机器翻译(NMT)的核心创新之一，也是使NMT模型优于经典的基于短语的机器翻译系统的关键思想。序列对序列学习的主要瓶颈是需要将源序列的整个内容压缩为一个固定大小的向量。注意可以通过允许解码器回头查看源序列隐藏状态来缓解这一问题，然后将源序列隐藏状态作为加权平均值作为附加输入提供给解码器，如下面的图11所示。

图11:注意力(Bahdanau et al.， 2015)

不同形式的注意是可用的(Luong et al.， 2015)。看一看在这里简单概述一下。注意力在任何需要根据输入的某些部分做出决策的任务中都是广泛适用和潜在有用的。它已被应用于一致性解析(Vinyals等人，2015年)、阅读理解(Hermann等人，2015年)和一次性学习(Vinyals等人，2016年)等许多领域。输入甚至不需要是一个序列，但可以由其他表示形式组成，如在图像标题的情况下(Xu et al.， 2015)，可以在下面的图12中看到。注意的一个有用的副作用是，通过检查输入的哪些部分与基于注意权重的特定输出相关，它提供了一个难得的(如果只是表面的)对模型内部工作的一瞥。

图12:图像字幕模型中的视觉注意力，表明模型在生成单词“飞盘”时关注的是什么。(Xu等，2015)

注意力也不局限于只看输入序列;自我注意可以用来观察句子或文档中周围的单词，以获得对上下文更敏感的单词表示。多层的自我关注是Transformer体系结构的核心(Vaswani等人，2017年)，这是目前最先进的NMT模型。

2015年，基于内存的网络

注意力可以被视为模糊记忆的一种形式，其中记忆由模型的过去隐藏状态组成，由模型选择从记忆中检索什么。想要更详细地了解注意力及其与记忆的联系，请看这篇文章．许多具有更显式内存的模型已经被提出。它们有不同的变体，如神经图灵机(Graves等，2014)、记忆网络(Weston等，2015)和端到端记忆纽托克斯(Sukhbaatar等，2015)、动态记忆网络(Kumar等，2015)、神经可微计算机(Graves等，2016)和循环实体网络(Henaff等，2017)。

记忆的访问通常基于与当前状态的相似度，类似于注意力，通常可以写入和读取。模型在实现和利用内存的方式上有所不同。例如，端到端内存网络多次处理输入并更新内存以支持多个推理步骤。神经图灵机也有一个基于位置的寻址，这使它们能够学习简单的计算机程序，如排序。基于记忆的模型通常应用于任务，在较长时间内保留信息应该是有用的，如语言建模和阅读理解。内存的概念非常通用:知识库或表可以充当内存，同时也可以根据整个输入或其中的特定部分填充内存。

2018年——预训练语言模型

预训练的单词嵌入与上下文无关，只用于初始化模型中的第一层。近几个月来，一系列监督任务已被用于预训练神经网络(Conneau et al.， 2017;McCann等，2017;Subramanian等人，2018)。相比之下，语言模型只需要无标签的文本;因此，训练可以扩展到数十亿个令牌、新领域和新语言。预训练语言模型在2015年首次提出(Dai & Le, 2015);直到最近，它们才被证明在各种各样的任务中都是有益的。语言模型嵌入可以用作目标模型的特征(Peters等人，2018年)，或者语言模型可以在目标任务数据上进行微调(Ramachandran等人，2017年;Howard & Ruder, 2018)。 Adding language model embeddings gives a large improvement over the state-of-the-art across many different tasks as can be seen in Figure 13 below.

图13:语言模型嵌入在最先进技术基础上的改进(Peters et al.， 2018)

经过预先训练的语言模型已经被证明可以用更少的数据进行学习。由于语言模型只需要无标记的数据，因此它们对于标记数据稀缺的低资源语言特别有用。有关预训练语言模型的潜力的更多信息，请参见这篇文章．

其他的里程碑

其他一些发展没有上面提到的发展那么普遍，但仍然具有广泛的影响。

基于字符的表示在字符上使用CNN或LSTM来获得基于字符的单词表示现在是相当普遍的，特别是对于形态学丰富的语言和具有重要形态学信息或有许多未知单词的任务。据我所知，基于字符的表示最早用于序列标记(Lample等人，2016;Plank et al.， 2016)。基于字符的表示减轻了必须以增加的计算成本处理固定词汇表的需求，并支持诸如完全基于字符的NMT等应用程序(Ling等人，2016;Lee等人，2017)。

敌对的学习对抗方法已经席卷了ML领域，并在自然语言处理中以不同的形式使用。对抗例子正被越来越广泛地使用，不仅是作为探索模型和理解其失败案例的工具，而且还使它们更健壮(Jia & Liang, 2017)。(虚拟)对抗训练，即最坏情况扰动(Miyato et al.， 2017;Yasunaga等人，2018)和领域对抗损失(Ganin等人，2016;Kim等人，2017)是有用的正则化形式，同样可以使模型更健壮。生成对抗网络(GANs)对于自然语言生成还不太有效(Semeniuta等人，2018年)，但在匹配分布时很有用(Conneau等人，2018年)。

强化学习强化学习已被证明对具有时间依赖性的任务非常有用，例如在训练期间选择数据(Fang等人，2017;Wu等人，2018)和建模对话(Liu等人，2018)。RL也可以有效地直接优化不可微的终端度量，如ROUGE或BLEU，而不是优化替代损失，如汇总中的交叉熵(Paulus等人，2018;Celikyilmaz等人，2018)和机器翻译(Ranzato等人，2016)。同样，反强化学习在奖励太复杂而无法指定的情况下也很有用，比如视觉叙事(Wang等人，2018年)。

非神经里程碑传播有关

在1998年和之后的几年里，FrameNet项目被引入(Baker et al.， 1998)，这导致了任务语义角色标注，这是一种浅层语义解析形式，至今仍在积极研究。在21世纪初，与自然语言学习会议(CoNLL)一起组织的共享任务促进了核心NLP任务的研究，如分块(Tjong Kim Sang等人，2000年)、命名实体识别(Tjong Kim Sang等人，2003年)和依赖性解析(Buchholz等人，2006年)等。许多CoNLL共享任务数据集至今仍是评估的标准。

2001年，条件随机场(CRF;Lafferty et al.， 2001)，其中最具影响力的一类序列标记方法被引入，并获得了ICML 2011年的时间考验奖．CRF层是目前最先进的序列标签问题模型的核心部分，这些问题具有标签相互依赖性，如命名实体识别(Lample等人，2016年)。

2002年，双语评价替角(BLEU;Papineni et al.， 2002)的指标被提出，它使MT系统能够扩大规模，目前仍然是MT评估的标准指标。同年，引入了结构化感知器(Collins, 2002)，为结构化感知工作奠定了基础。在同一次会议上，情绪分析，最受欢迎和被广泛研究的NLP任务之一，被介绍了(Pang et al.， 2002)。三篇论文都赢得了2018 NAACL的时间考验奖．

2003年引入了潜狄利克雷分配(LDA;Blei et al.， 2003)，是机器学习中应用最广泛的技术之一，它仍然是进行主题建模的标准方法。2004年，新的最大边际模型被提出，它比支持向量机更适合捕捉结构化数据中的相关性(Taskar等人，2004a;2004 b)。

2006年，OntoNotes (Hovy et al.， 2006)被引入，这是一种具有多种注释和注释者之间高度一致性的大型多语言语料库。OntoNotes已被用于训练和评估各种任务，如依赖解析和共同引用解析。Milne和Witten(2008)在2008年描述了如何使用维基百科丰富机器学习方法。到目前为止，Wikipedia是训练ML方法最有用的资源之一，无论是作为知识库的实体链接和消除歧义、语言建模还是各种其他任务。

2009年，远程监督的思想(Mintz et al.， 2009)被提出。远程监督利用启发式或现有知识库中的信息生成噪声模式，可用于自动从大型语料库中提取示例。远程监督在关系提取、信息提取和情感分析等任务中得到了广泛的应用，是一种常用的技术。

感谢Djamé Seddah、Daniel Khashabi、Shyam Upadhyay、Chris Dyer和Michael Roth提供的指导Twitter的线程)．

克纳森，R.，和尼，H.(1995, 5月)。改进了m-gram语言建模的后退。在icassp(第1卷，第181e4页)。
A.坎南，K.库拉赫，S.拉维，T.考夫曼，A.汤姆金斯，B.米克勒斯，…& Ramavajjala, V.(2016年8月)。智能回复:电子邮件的自动回复建议。在第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集中(第955-964页)。ACM。
本吉奥，Y.，杜charme, R.，和文森特，P.(2001)。少量的学报》上。
米科洛夫，Karafiát, M.， Burget, L.， Černocký， J.， & Khudanpur, S.(2010)。基于递归神经网络的语言模型。在第十一届国际言语交流协会年会上。
坟墓,a(2013)。用循环神经网络生成序列。arXiv预印本arXiv: 1308.0850。
梅利斯，G.，戴尔，C.和布朗森，P.(2018)。神经语言模型的评价技术现状。在2018年ICLR会议记录中。
丹尼鲁克，M.， Rocktäschel, T.， Weibl, J.，和里德尔，S.(2017)。神经语言建模中的注意力持续时间短得令人沮丧。在ICLR 2017论文集中。
Caruana, r(1993)。多任务学习:基于知识的归纳偏差的来源。第十届机器学习国际会议论文集。
科洛伯特，R.和韦斯顿，J.(2008)。自然语言处理的统一体系结构。第25届国际机器学习会议论文集(160-167页)。
Caruana, r(1998)。多任务学习。自主智能体与多智能体系统，27(1)，95-133。
R.科洛伯特，J.韦斯顿，L.伯图，卡伦，M.，卡乌克库奥卢，K.和库克萨，P.(2011)。自然语言处理(几乎)从零开始。机器学习研究学报，12(8)，2493-2537。从http://arxiv.org/abs/1103.0398获取。
鲁德，宾格尔，奥根斯坦，和Søgaard, A.(2017)。学习在松散相关的任务之间共享什么。ArXiv预印本ArXiv: 1705.08142。从http://arxiv.org/abs/1705.08142获取
Mikolov, T.， Chen, K.， Corrado, G.和Dean, J.(2013)。词汇和短语的分布式表示及其构成。《神经信息处理系统进展》。
Mikolov, T.， Corrado, G.， Chen, K.和Dean, J.(2013)。向量空间中词表示的高效估计。学习表征国际会议论文集(ICLR 2013)。
阿罗拉，S.，李，Y.，梁，Y.，马，T.，和里斯基，A.(2016)。基于pmi的词嵌入潜变量模型方法。TACL 4 385 - 399。
米姆诺，D.和汤普森，L.(2017)。带有负采样的跳跃图的奇怪几何。《2017年自然语言处理经验方法会议论文集》(第2863-2868页)。
Antoniak, M.和Mimno, D.(2018)。基于嵌入的词相似度稳定性评估。计算语言学协会学报，6,107-119。
温德兰特，L.，库默菲尔德，J. K.和米哈尔恰，R.(2018)。影响词嵌入惊人不稳定性的因素。在NAACL-HLT 2018论文集中。
金,y(2014)。基于卷积神经网络的句子分类。自然语言处理经验方法会议论文集，1746-1751。从http://arxiv.org/abs/1408.5882获取
彭宁顿，J.， Socher, R.，和曼宁，c.d.(2014)。手套:单词表示的全局向量。2014年自然语言处理经验方法会议论文集，1532-1543。
Levy, O.， & Goldberg, Y.(2014)。作为隐式矩阵分解的神经词嵌入。神经信息处理系统进展(NIPS)， 2177-2185。从http://papers.nips.cc/paper/5477-neural-word-embedding-as-implicit-matrix-factorization获取
Levy, O.， Goldberg, Y.， & Dagan, I.(2015)。利用词嵌入的经验改进分布相似性。计算语言学协会学报，3,211-225。从https://tacl2013.cs.columbia.edu/ojs/index.php/tacl/article/view/570获取
Le, Q. V.和Mikolov, T.(2014)。句子和文献的分布式表征。国际机器学习会议，2014,32,1188-1196。从http://arxiv.org/abs/1405.4053获取
Kiros, R.， Zhu, Y.， Salakhutdinov, R.， Zemel, R. S.， Torralba, A.， Urtasun, R.， & Fidler, S.(2015)。Skip-Thought向量。在NIPS 2015论文集中。从http://arxiv.org/abs/1506.06726获取
格罗弗，A.和莱斯科维克，J.(2016年8月)。node2vec:面向网络的可扩展特性学习。在第22届ACM SIGKDD知识发现和数据挖掘国际会议论文集中(855-864页)。ACM。
阿斯加里，E.和莫弗雷德，m.r.(2015)。用于深层蛋白质组学和基因组学的生物序列连续分布表示。科学通报，10(11)，e0141287。
康诺，A.，兰普尔，G.，兰扎托，M.，诺耶，L.和Jégou, H.(2018)。无平行数据的词翻译。在2018年ICLR会议记录中。从http://arxiv.org/abs/1710.04087获取
Artetxe, M.， Labaka, G.和Agirre, E.(2018)。一种完全无监督跨语言词嵌入映射的鲁棒自学习方法。在ACL 2018论文集中。
Søgaard, A.， Ruder, S.， & vuliic, I.(2018)。论无监督双语词典归纳的局限性。在ACL 2018论文集中。
鲁德，S.， vuliic, I.， & Søgaard, A.(2018)。跨语言词嵌入模型综述。将发表在《人工智能研究杂志》上。从http://arxiv.org/abs/1706.04902获取
王文华(1990)。在时间中寻找结构。认知科学，14(2)，179-211。
Hochreiter, S.和Schmidhuber, J.(1997)。短期记忆。神经计算，9(8)，1735-1780。
Kalchbrenner, N.， Grefenstette, E.， & Blunsom, P.(2014)。用于句子建模的卷积神经网络。《第52届计算语言学协会年会论文集》(第655-665页)。从http://arxiv.org/abs/1404.2188获取
金,y(2014)。基于卷积神经网络的句子分类。自然语言处理经验方法会议论文集，1746-1751。从http://arxiv.org/abs/1408.5882获取
N. Kalchbrenner, L. Espeholt, K. Simonyan, Oord, A. van den, Graves, A.和K. Kavukcuoglu(2016)。线性时间神经网络机器翻译。预打印ArXiv:检索自http://arxiv.org/abs/1610.10099
L。J。,Yu, Lai k . R。&张x(2016)。基于区域CNN-LSTM模型的多维度情感分析。第54届计算语言学协会年会论文集(acl2016)， 225-230。
Bradbury, J.， Merity, S.， Xiong, C.， & Socher, R.(2017)。Quasi-Recurrent神经网络。2017年ICLR。从http://arxiv.org/abs/1611.01576获取
Socher, R.， Perelygin, A.， Wu, J.(2013)。情绪树库语义组合的递归深度模型。2013年自然语言处理经验方法会议论文集，1631-1642。
Tai, K. S.， Socher, R.，和Manning, c.d.(2015)。改进的树状长短期记忆网络语义表示。acl - 2015, 1556 - 1566。
Levy, O.， & Goldberg, Y.(2014)。嵌入基于依赖关系的词。在第52届计算语言学协会年会论文集(短论文)中(302-308页)。https://doi.org/10.3115/v1/P14-2050
戴尔，C.，昆科罗，A.，巴莱斯特罗斯，M.，和史密斯，n.a.(2016)。循环神经网络语法。在NAACL。从http://arxiv.org/abs/1602.07776获取
巴斯廷斯，J.， Titov, I.，阿齐兹，W.， Marcheggiani, D.和司马安，K.(2017)。用于语法感知神经机器翻译的图卷积编码器。2017年自然语言处理经验方法会议论文集。
Vinyals, O.， Toshev, A.， Bengio, S.和Erhan, D.(2015)。显示和告诉:一个神经图像字幕生成器。《IEEE计算机视觉与模式识别会议论文集》(3156-3164页)。
Lebret, R.， Grangier, D.和Auli, M.(2016)。从结构化数据生成文本及其在传记领域的应用。2016年自然语言处理经验方法会议论文集。从http://arxiv.org/abs/1603.07771获取
洛约拉，P.，马里斯-泰勒，E.和松尾，Y.(2017)。从源代码更改生成自然语言描述的神经体系结构。2017年ACL。从http://arxiv.org/abs/1704.04856获取
Vinyals, O.， Kaiser, L.， Koo, T.， Petrov, S.， Sutskever, I.， & Hinton, G.(2015)。语法作为一门外语。神经信息处理系统的研究进展。
Gillick, D.， Brunk, C.， Vinyals, O.和Subramanya, A.(2016)。基于字节的多语言语言处理。在NAACL(1296-1306页)。从http://arxiv.org/abs/1512.00103获取
吴颖，舒斯特，陈志，勒，Q. V，诺鲁兹，M, Macherey, W，…迪恩，J.(2016)。谷歌的神经机器翻译系统:弥合人与机器翻译之间的鸿沟。ArXiv预印本ArXiv: 1609.08144。
Gehring, J.， Auli, M.， Grangier, D.， Yarats, D.，和Dauphin, Y. N.(2017)。卷积序列对序列学习。ArXiv预印本ArXiv: 1705.03122。从http://arxiv.org/abs/1705.03122获取
A. Vaswani, N. Shazeer, N. Parmar, N. Uszkoreit, J.， Jones, L.， Gomez, A. N.，…关注是你所需要的。《神经信息处理系统进展》。
陈明霞，福斯特，G.和Parmar, N.(2018)。两个世界的最佳:结合神经机器翻译的最新进展。在ACL 2018论文集中。
巴达瑙，D, Cho, K，和本吉奥，Y.(2015)。联合学习对齐和翻译的神经机器翻译。2015年ICLR。
陈德良M.-T。，范，H.，和曼宁，C. D.(2015)。基于注意的神经网络机器翻译的有效方法。2015年EMNLP论文集。从http://arxiv.org/abs/1508.04025获取
Hermann, K. M.， Kočiský， T.， Grefenstette, E.， Espeholt, L.， Kay, W.， Suleyman, M.， & Blunsom, P.(2015)。教机器阅读和理解。神经信息处理系统的研究进展。从http://arxiv.org/abs/1506.03340v1获取
徐k, Courville, A.，泽梅尔，R. S.和本吉奥，Y.(2015)。展示，出席和告诉:神经图像标题生成与视觉注意。2015年ICML会议论文集。
Vinyals, O.， Blundell, C.， Lillicrap, T.， Kavukcuoglu, K.和Wierstra, D.(2016)。匹配网络的一次性学习。《神经信息处理系统进展》29 (NIPS 2016)。从http://arxiv.org/abs/1606.04080获取
Graves, A.， Wayne, G.，和Danihelka, I.(2014)。神经图灵机。arXiv预印本arXiv: 1410.5401。
韦斯顿，J.，乔普拉，S.和博尔德斯，A.(2015)。记忆网络。在2015年ICLR会议记录中。
苏赫巴托尔，S.，萨拉姆，A.，韦斯顿，J.，和费格斯，R.(2015)。端到端记忆网络。在NIPS 2015论文集中。从http://arxiv.org/abs/1503.08895获取
Kumar, A.， Irsoy, O.， Ondruska, P.， Iyyer, M.， Bradbury, J.， Gulrajani, I.，…& Socher, R.(2016年6月)。问我任何问题:用于自然语言处理的动态记忆网络。《机器学习国际会议》(第1378-1387页)。
A. Graves, G. Wayne, M. Reynolds, T. Harley, I. Danihelka, grabska - barwikowska, A. Hassabis, D.(2016)。利用动态外部存储器的神经网络进行混合计算。大自然。
赫纳夫，M.，韦斯顿，J.，萨拉姆，A.，博尔德斯，A.，和勒丘恩，Y.(2017)。用循环实体网络跟踪世界状态。在ICLR 2017论文集中。
萨茨科弗，维尼亚尔斯，欧，勒，Q. V.(2014)。用神经网络进行序列对序列学习。《神经信息处理系统进展》。
McCann, B.， Bradbury, J.， Xiong, C.， & Socher, R.(2017)。翻译中的学习:语境化的词向量。《神经信息处理系统进展》。
康诺，A.，基拉，D.，施文克，H.，巴罗，L.和博尔德斯，A.(2017)。基于自然语言推理数据的通用句表示的监督学习。2017年自然语言处理经验方法会议论文集。
Subramanian, S.， Trischler, A.， Bengio, Y.和Pal, C. J.(2018)。通过大规模多任务学习通用分布式句子表示。在2018年ICLR会议记录中。
戴爱梅，乐问v(2015)。Semi-supervised序列学习。神经信息处理系统的进展(NIPS ' 15)。从http://arxiv.org/abs/1511.01432获取
彼得斯，M. E.，诺伊曼，M.，伊耶尔，M.，加德纳，M.，克拉克，C.，李，K.，和泽特莫耶，L.(2018)。深度上下文化的单词表示。在NAACL-HLT 2018论文集中。
霍华德，J.和罗德，S.(2018)。文本分类的通用语言模型微调。在ACL 2018论文集中。从http://arxiv.org/abs/1801.06146获取
Lample, G.， Ballesteros, M.， Subramanian, S.， Kawakami, K.， & Dyer, C.(2016)。命名实体识别的神经体系结构。2016年NAACL-HLT。
普兰克，B.， Søgaard, A.， & Goldberg, Y.(2016)。基于双向长短期记忆模型和辅助丢失的多语言词性标注。在第54届计算语言学协会年会论文集中。
Ling, W.， Trancoso, I.， Dyer, C.， & Black, A.(2016)。基于字符的神经网络机器翻译。在ICLR。从http://arxiv.org/abs/1511.04586获取
李J，赵K，本吉奥，Y.(2017)。无显式分割的全字符级神经网络机器翻译。在《计算语言学协会会刊》上。
贾锐，梁鹏(2017)。评价阅读理解系统的对抗性例子。2017年自然语言处理经验方法会议论文集。
(2017)。半监督文本分类的对抗训练方法。在ICLR 2017论文集中。
Yasunaga, M.， Kasai, J.和Radev, D.(2018)。基于对抗训练的鲁棒多语言词性标注。在2018 NAACL论文集中。从http://arxiv.org/abs/1711.04903获取
加宁，Y.， Ustinova, E.， Ajakan, H.， Germain, P.， Larochelle, H.， Laviolette, F.，…lemmpitsky, V.(2016)。神经网络的域对抗训练。机器学习研究杂志，17。
Kim, Y.， Stratos, K.和Kim, D.(2017)。合成或陈旧数据的对抗性适应。《ACL论文集》(1297-1307页)。
塞门纽塔，塞弗林，A.和吉利，S.(2018)。语言生成中GANs的精确评估。从http://arxiv.org/abs/1806.04936获取
方明，李旸，科恩，T.(2017)。学习如何主动学习:一种深度强化学习方法。2017年自然语言处理经验方法会议论文集。从https://arxiv.org/pdf/1708.02383v1.pdf获取
吴娟，李磊，王文云(2018)。强化了Co-Training。在NAACL-HLT 2018论文集中。
Paulus, R.， Xiong, C.， & Socher, R.(2018)。一个用于抽象总结的深度增强模型。在2018年ICLR会议记录中。
A. Celikyilmaz, A. Bosselut, He, X.和Choi, Y.(2018)。用于抽象摘要的深度通信代理。在NAACL-HLT 2018论文集中。
兰扎托，m.a，乔普拉，奥里，M，和扎伦巴，W.(2016)。用循环神经网络进行序列级训练。在2016年ICLR会议记录中。
王晓霞，陈伟，王玉芳，王玉芳。王文云，王文云(2018)。没有什么指标是完美的:视觉叙事的对抗性奖励学习。在ACL 2018论文集中。从http://arxiv.org/abs/1804.09160获取
刘,B。,病重,G。,Hakkani-Tur, D,沙,P, &见鬼,l(2018)。面向任务的端到端可训练对话系统中对话学习的人性化教学与反馈。在NAACL-HLT 2018论文集中。
昆科罗，A.，戴尔，C.，黑尔，J.， Yogatama, D.，克拉克，S.，和布朗瑟姆，P.(2018)。LSTMs可以很好地学习语法敏感的依赖项，但是建模结构使它们更好。在ACL论文集2018(第1-11页)。从http://aclweb.org/anthology/p18获取- 1132
布莱文斯，T.，列维，O.和泽特勒莫耶，L.(2018)。深层rnn编码软层次语法。在ACL 2018论文集中。从http://arxiv.org/abs/1805.04218获取
王A，辛格，迈克尔，J.，希尔，F.，列维，O.和鲍曼，S. R.(2018)。GLUE:自然语言理解的多任务基准测试和分析平台。
McCann, B.， Keskar, N. S.， Xiong, C.和Socher, R.(2018)。自然语言十项全能:问答式多任务学习。
兰普，G.，诺耶，L.和兰扎托，M.(2018)。仅使用单语语料库的无监督机器翻译。在2018年ICLR会议记录中。
Artetxe, M.， Labaka, G.， Agirre, E.和Cho, K.(2018)。无监督神经机器翻译。在2018年ICLR会议记录中。从http://arxiv.org/abs/1710.11041获取
Graves, A.， Jaitly, N.和Mohamed, A. R.(2013, 12月)。深度双向LSTM混合语音识别。在自动语音识别和理解(ASRU)， 2013年IEEE研讨会(pp. 273-278)。IEEE。
刘鹏杰，李晓燕，李晓燕(2017)。序列到序列学习的无监督预训练。在EMNLP 2017论文集中。
贝克，c.f.，菲尔莫尔，c.j.，洛，j.b.(1998, 8月)。伯克利框架网项目。《第十七届计算语言学国际会议论文集》第一卷(86-90页)。计算语言学协会。
Tjong Kim Sang, E. F. & Buchholz, S.(2000, 9月)。CoNLL-2000共享任务简介:分块。《第二届逻辑语言学习研讨会和第四届计算自然语言学习会议论文集》第七卷(127-132页)。计算语言学协会。
Tjong Kim Sang, E. F.和De Meulder, F.(2003, 5月)。介绍CoNLL-2003共享任务:独立于语言的命名实体识别。在HLT-NAACL第7届自然语言学习会议论文集2003年第4卷(142-147页)。计算语言学协会。
布赫兹，S.和马西，E.(2006, 6月)。多语言依赖关系解析的CoNLL-X共享任务。《计算自然语言学习第十届会议论文集》(149-164页)。计算语言学协会。
拉弗蒂，J.，麦卡勒姆，A.和佩雷拉，F. C.(2001)。条件随机场:分割和标记序列数据的概率模型。
帕皮内尼、鲁克斯、沃德、T、朱文杰(2002,7月)。BLEU:一种机器翻译的自动评价方法。《计算语言学协会第40届年会论文集》(311-318页)。计算语言学协会。
柯林斯，M.(2002, 7月)。隐马尔可夫模型的判别训练方法:感知器算法的理论与实验。ACL-02自然语言处理经验方法会议论文集第10卷(第1-8页)。计算语言学协会。
彭斌，李亮，和Vaithyanathan, S.(2002, 7月)。大拇指?:使用机器学习技术进行情感分类。ACL-02自然语言处理经验方法会议论文集第10卷(第79-86页)。计算语言学协会。
布莱，吴安义，和乔丹，m.i.(2003)。潜在狄利克雷分配。机器学习研究，3(1)，993-1022。
塔斯卡尔，B.，克莱因，D.，柯林斯，M.，科勒，D.，和曼宁，C.(2004)。Max-margin解析。2004年自然语言处理经验方法会议论文集。
塔斯卡尔，B.，克莱因，D.，柯林斯，M.，科勒，D.，和曼宁，C.(2004)。Max-margin解析。2004年自然语言处理经验方法会议论文集。
Hovy, E, Marcus, M, Palmer, M, Ramshaw, L.， & Weischedel, R.(2006, 6月)。OntoNotes: 90%溶液。在NAACL人类语言技术会议论文集中，配套卷:短论文(第57-60页)。计算语言学协会。
米尔恩，D.和威腾，i.h.(2008年，10月)。学习链接维基百科。在第17届ACM信息和知识管理会议论文集(509-518页)中。ACM。
明茨，比尔，S，斯诺，R，和Jurafsky, d(2009年8月)。无标记数据的关系提取远程监督。第47届ACL年会暨第4届AFNLP自然语言处理国际联席会议论文集:卷2-卷2(第1003-1011页)。计算语言学协会。

自然语言处理的神经历史综述

神经语言模型

2008年——多任务学习

2013年——单词嵌入

2013年——用于NLP的神经网络

2014 -序列对序列模型

2015 -关注

2015年，基于内存的网络

2018年——预训练语言模型

其他的里程碑

非神经里程碑传播有关

相关内容

与艾林在风险EMEA 2022见面

为什么在管理声誉风险时要“由外而内”

ESG风险:利益相关者来了

自然语言处理的神经历史综述

神经语言模型

2008年——多任务学习

2013年——单词嵌入

2013年——用于NLP的神经网络

2014 -序列对序列模型

2015 -关注

2015年，基于内存的网络

2018年——预训练语言模型

其他的里程碑

非神经里程碑传播有关

相关内容

与艾林在风险EMEA 2022见面

为什么在管理声誉风险时要“由外而内”

ESG风险:利益相关者来了

消息灵通