情感分析被广泛用于衡量公众对产品的意见,分析客户满意度,并发现趋势。随着客户评论的激增,更细粒度的基于方面的情感分析(ABSA)越来越流行,因为它允许对产品或服务的方面进行更详细的检查。为此,我们在一段时间前推出了ABSA服务,并展示了如何利用该服务来洞察产品的优势和劣势。为了对客户评论进行情感分析(以及许多其他文本分类任务),我们面临的问题是,有许多不同类别的评论,如书籍、电子产品、餐馆等(您只需要查看上的Departments选项卡亚马逊来感受一下这些类别的多样性。)在机器学习和自然语言处理中,我们把这些不同的类别称为域;每个领域都有其独特的特点。在实践中,这意味着在一个领域上训练的模型在另一个领域上表现更差,这取决于两个领域的不同程度。例如,在餐馆领域训练的模型在图书领域的表现要比在相对相似的酒店领域差得多。在基于方面的情感分析中,这一问题被放大,不仅是域的不同,而且属于这些域的方面也不同。此外,随着世界变得越来越全球化,除了英语之外,客户评价需要用其他语言进行分析。因此,我们需要为大量的语言域对提供大量的训练数据,这在实践中是不可行的,因为注释——特别是ABSA所需的细致注释——是昂贵的。我们可以采取两个相辅相成的方向来解决这一缺陷:
- 我们可以创建模型,使我们能够转移现有的知识,并将训练好的模型应用到新的领域,而不会造成较大的性能损失。这个领域被称为领域适应,我们将在以后的博客文章中讨论这个问题。
- 我们可以创建更通用的模型,通过利用训练数据中固有的信息,即使在相对较少的数据上训练,也能够很好地一般化。在这篇博文的其余部分,我们将讨论我们在我们的EMNLP 2016年的论文实现这一目标。
尽管基于深度学习的模型在许多NLP任务中是最先进的,但它们传统上只能处理大量数据。因此,寻找方法来帮助他们利用少数数据样本进行归纳,这本身就是一个重要的研究问题。在极端情况下,我们想要模仿人类从少数几个例子中学习的方式,也被称为一次性学习。评论(任何连贯的文本)都有一个基本的结构。在复读的话语结构中,句子之间通过不同的修辞关系进行连接。从直观上看,对周围句子的关系和情感的了解应该能够告知当前句子的情感。如果一个餐馆的评论者对食物的质量表现出了积极的态度,他的意见很可能不会在评论过程中发生巨大的变化。此外,复习中绝大多数的肯定句或否定句有助于消除情感模棱两可的句子。现有的情感分析深度学习模型仅适用于句子层面;它们能够考虑句内关系,但不能捕捉依赖于语篇结构的句间关系,并为情感预测提供有价值的线索。 We propose a hierarchical bidirectional long short-term memory (H-LSTM) that is able to leverage both intra- and inter-sentence relations. Because our model only relies on sentences and their structure within a review, it is fully language-independent.
模型
图1:面向面向方面情感分析的分层双向LSTM (H-LSTM)。单词嵌入被输入到句子级双向LSTM中。将前向LSTM和后向LSTM的最终状态与方面嵌入连接在一起,并送入一个双向审查级LSTM。在每一个时间步,前向和后向LSTM的输出被连接并输入到最后一层,该层输出情绪的概率分布。
您可以在上图中查看我们模型的架构。该模型由以下组件组成:
LSTM
我们使用长短期记忆(LSTM),它向循环细胞添加输入、输出和遗忘门,这允许它建模长期依赖,这对捕捉情感至关重要。对于句子中的第(t)个单词,LSTM将单词embedding (x_t)、前一个输出(h_{t-1})和细胞状态(c_{t-1})作为输入,并计算下一个输出(h_t)和细胞状态(c_t)。(h)和(c)都用0初始化。
双向LSTM
在复习和句子层面,情感不仅依赖于前面的词和句子,也依赖于后面的词和句子。双向LSTM (Bi-LSTM)允许我们使用前向LSTM(按时间顺序处理序列)和后向LSTM(按倒序处理序列)来向前看。给定时间步长的输出(h_t)是前向LSTM和后向LSTM的相应状态的拼接。
分层双向LSTM
将复习级的Bi-LSTM叠加到句子级的Bi-LSTM之上,将得到图1中分层的双向LSTM (H-LSTM)。句子级的前向lstm和后向lstm分别接收以第一个词嵌入(x_{1})和最后一个词嵌入(x_l)开始的句子。两个lstm的最终输出(h_l)然后与方面向量(a)连接,并作为输入输入到审阅级的前向和后向lstm。两个lstm的输出被连接起来并送入最后的softmax层,该层输出每个句子的情绪概率分布。
评价
ABSA最流行的基准测试是SemEval基于方面的情感分析任务。我们评估这个任务的最新版本semeval - 2016 ABSA任务.为了证明我们模型的语言和领域独立性,我们评估了来自竞赛的5个领域(餐馆、酒店、笔记本电脑、手机、相机)和8种语言(英语、西班牙语、法语、俄语、荷兰语、土耳其语、阿拉伯语、汉语)的数据集。我们使用随机(H-LSTM)和预先训练的词嵌入(HP-LSTM),将我们的模型与每个领域语言对(best)的semevale -2016基于方面的情感分析任务的最佳模型进行比较,并与竞赛的两个最佳单个模型进行比较:IIT-TUDA (Kumar等人,2016),它对每种语言使用大量情感词汇,以及XRCE (Brun等人,2016),它使用手工制作的、特定领域规则的解析器增强。
语言 | 域 | 最好的 | XRCE | IIT-TUDA | 美国有线电视新闻网 | LSTM | H-LSTM | HP-LSTM |
---|---|---|---|---|---|---|---|---|
英语 | 餐厅 | 88.1 | 88.1 | 86.7 | 82.1 | 81.4 | 83.0 | 85.3 |
西班牙语 | 餐厅 | 83.6 | - | 83.6 | 79.6 | 75.7 | 79.5 | 81.8 |
法国 | 餐厅 | 78.8 | 78.8 | 72.2 | 73.2 | 69.8 | 73.6 | 75.4 |
俄罗斯 | 餐厅 | 77.9 | - | 73.6 | 75.1 | 73.9 | 78.1 | 77.4 |
荷兰 | 餐厅 | 77.8 | - | 77.0 | 75.0 | 73.6 | 82.2 | 84.8 |
土耳其 | 餐厅 | 84.3 | - | 84.3 | 74.2 | 73.6 | 76.7 | 79.2 |
阿拉伯语 | 酒店 | 82.7 | - | 81.7 | 82.7 | 80.5 | 82.8 | 82.9 |
英语 | 笔记本电脑 | 82.8 | - | 82.8 | 78.4 | 76.0 | 77.4 | 80.1 |
荷兰 | 手机 | 83.3 | - | 82.6 | 83.3 | 81.8 | 81.3 | 83.6 |
中国人 | 相机 | 80.5 | - | - | 78.2 | 77.6 | 78.6 | 78.8 |
中国人 | 手机 | 73.3 | - | - | 72.4 | 70.3 | 74.1 | 73.3 |
表1:我们的系统随机初始化词嵌入(H-LSTM)和预训练嵌入(HP-LSTM)用于每种语言和领域的ABSA,并与每对的最佳系统(best)、最好的两个单一系统(XRCE, IIT-TUDA)、句子级CNN (CNN)和我们的句子级LSTM (LSTM)进行比较。
从上表中可以看出,考虑到审查的结构,我们的分层模型在几乎所有领域语言对上都取得了优于句子级CNN和句子级Bi-LSTM基线的结果。此外,我们的模型显示的结果可以与竞赛中最好的单个模型相媲美,同时不需要昂贵的手工特性或外部资源,从而展示了它的语言和领域独立性。总的来说,我们的模型比最先进的模型要好,特别是对于资源较少的语言,在这些语言中很少有手工设计的特性。它在4个和5个数据集上分别使用随机初始化和预先训练的嵌入优于最先进的技术。更多细节,请参考我们的论文.
消息灵通
我们会不时通过电子邮件与您联系我们的产品和服务。