在机器学习中,传统的假设是,我们的模型应用的数据与我们用于训练的数据是相同的。一旦我们进入现实世界,这个假设就被证明是错误的:我们遇到的许多数据源将与我们最初的训练数据非常不同(相同意思是它来自相同的分布)。在实践中,这会导致我们模型的性能显著下降。领域适应是一个突出的方法转移学习,可以帮助桥梁之间的训练和测试数据之间的差异。领域改编方法通常寻求识别领域之间共享的特性,或者学习对两个领域都有用的通用表示。在这篇博客文章中,我将讨论这项研究的动机和结果最近的一篇论文和我一起出版的芭芭拉·普朗克.在这本书中,我们概述了一种互补的领域适应方法——而不是学习一个可以的模型适应各领域之间,我们将学习选择数据这对训练我们的模型很有用。

防止负迁移

迁移学习选择数据的主要动机是预防负迁移.如果来自源训练数据的信息不仅没有帮助,而且实际上对我们在目标领域的表现起反作用,那么就会发生负迁移。负迁移的经典例子来自情感分析:如果我们训练一个模型来预测书评的情感,我们可以期望该模型在类似于书评的领域表现良好。然而,将一个以书评为训练对象的模型转移到电子产品的评论上,会导致负迁移,因为我们的模型学习到的许多术语都与对书籍的某种情感联系在一起,例如:“引人入胜的”、“扣人心弦的”,或者更糟糕的“危险的”和“令人兴奋的”,对电子产品评论来说将毫无意义或具有不同的含义。在从一个源调整到一个目标域的经典场景中,我们能做的唯一一件事就是创建一个模型,该模型能够分解这些意义上的转换。然而,在两个非常不同的领域之间进行调整仍然经常失败,或者导致令人痛苦的糟糕性能。在现实世界中,我们通常可以访问多个数据源。在这种情况下,我们只能根据最重要的数据来训练我们的模型有帮助的对于我们的目标域。然而,目前还不清楚确定源数据对目标域的帮助的最佳方法是什么。现有的工作通常依赖于源域和目标域之间的相似性度量。

数据选择的贝叶斯优化

我们的假设是,选择迁移学习训练数据的最佳方式取决于任务和目标域。此外,虽然现有的措施只考虑与目标领域相关的数据,我们也认为一些训练示例天生比其他更有帮助。基于这些原因,我们建议学习一种用于迁移学习的数据选择措施。我们使用贝叶斯优化来实现这一点,贝叶斯优化框架已成功地用于优化神经网络中的超参数,并可用于优化任何黑盒函数。我们通过定义与目标域的训练数据的相似性以及其多样性相关的几个特征来学习这个函数。在多次迭代的过程中,数据选择模型会了解每个特性对于相关任务的重要性。

评价和结论

我们在三个任务上评估我们的方法,情感分析、词性标注和依赖解析,并将我们的方法与随机选择以及选择最相似源域或最相似训练示例的现有方法进行比较。对于评论的情感分析,在最相似的领域进行训练是一个强有力的基线,因为评论类别是明确划分的。我们在此基础上进行了显著改进,证明了多样性与相似性是互补的。我们甚至用最先进的领域适应方法实现了性能上的竞争,尽管没有进行任何调整。我们观察到在词性标记和依赖解析方面有较小但一致的改进。最后,我们评估如何在模型、任务和领域之间传递良好的度量。我们发现,学习一个数据选择措施可以学习一个更简单的模型,它被用作一个最先进的模型的代理。跨域传输是健壮的,而跨任务传输——正如人们所期望的那样——适用于相关的任务,如词性标记和解析,但不适用于不同的任务,如解析和情感分析。在本文中,我们证明了选择相关数据对迁移学习的重要性。我们表明,考虑到任务和领域特定的特征,并学习适当的数据选择度量比现成的度量更好。 We find that diversity complements similarity in selecting appropriate training data and that learned measures can be transferred robustly across models, domains, and tasks. This work will be presented at the2017年自然语言处理经验方法会议.更多细节可以在报纸上找到在这里 开始免费试用

消息灵通

我们会不时通过电子邮件与您联系我们的产品和服务。