搜索新闻应该是一个高效、准确、有洞察力的过程,不管你是什么角色风险情报媒体监测或者投资研究公司(Investment Research)等等。理想情况下,您的搜索将在尽可能短的时间内以最少的输入返回所需的所有相关和可靠的信息。

不幸的是,对于风险、金融或媒体领域的分析师来说,情况往往并非如此。传统的媒体情报流程和工作流程严重依赖基于关键词的人工搜索,在如今闪电般的世界里,这已经不够好了。抛开效率低下不谈,过度依赖基于关键字的搜索和调查过程是有问题的,因为它们容易由于词汇歧义而返回不相关的结果(例如Apple vs Apple)。解决这个问题需要冗长、复杂的查询,创建、更新和维护这些查询需要花费大量的时间,这会对生产力产生负面影响。

然而,有一种更好的搜索方式,它不仅仅关注关键词。

利用人工智能(AI),特别是机器学习(ML)和自然语言处理(NLP),按实体搜索新闻,有助于节省时间和提高精度。它还减少了误报,并提供了以前不可能的各种其他洞见。本博客将介绍实体和关键字之间的区别,以及使用实体和关键字的好处。

什么是实体?

《牛津英语词典》为什么是实体提供了一个基本的起点,它的定义是“具有独特和独立存在的东西”。在这个博客的语境中,新闻文章中会提到人物、地点、产品、公司,甚至概念。我们统称这些实体。理论上,它们应该独立于其他实体,因此可以作为搜索输入,以最小的努力为终端用户提供更多相关的新闻文章。当然,实体提取也会产生一些问题。

例如,有一个问题是,两个或两个以上的实体有相同的拼写,但是非常不同的东西(再次,apple vs apple,或jaguar vs jaguar)。然而,与关键字搜索不同的是,利用NLP就像我们在我们的消息API将通过考虑文章或文档的其余部分作为上下文,以及使用知识库(如DBpedia/Wikipedia)作为进一步的上下文,对引用的实体做出准确的预测。以上面的“Apple vs Apple”为例,如果你正在寻找关于该公司的文章,它会通过命名实体消除歧义的过程过滤掉关于该水果的文章。

实体优于关键词

为了进一步演示实体的好处,让我们看一个有问题的关键字搜索示例。在这种情况下,搜索音乐流媒体公司“Pandora”打开了一个充满歧义和不相干文章的潘多拉盒子。

分析人士很快就会意识到,除了音乐流媒体服务的结果之外,还有被称为潘多拉的丹麦珠宝公司、希腊神话、DC漫画人物、故事片、电视剧、小说、主题公园、音乐家、雕塑、地点,甚至真菌的结果!这样的例子不胜枚举。

布尔搜索可以帮助你过滤,只包括音乐流媒体公司,但查询可能会变得非常长和复杂,非常快。下面是用来过滤掉“Pandora”其他一些主要搜索结果的搜索字符串的简短版本:

“潘多拉”不是(“潘多拉A/S”或“珠宝”或“丹麦”或“丹麦”或“符咒”或“戒指”或“手镯”或“项链”或“耳环”或“潘多拉电影”或“朴正宇”或“韩国灾难片”或.................................................你懂的。

现在,想象一下对每个查询都这样做,并且必须随着时间的推移更新和维护查询。

相比之下,让我们看看实体搜索旁边的布尔字符串是什么样的完全相同的搜索意图

这就是它的快速和简单。利用NLP作为新闻发现和调查过程的一部分并不困难。作为新闻API的一部分,我们提供了超过25种不同的搜索和过滤参数,包括基于实体、概念和基于类别的搜索,以确保您可以在新闻内容中找到对您重要的内容,而不必依赖不可扩展的关键字查询。您还可以在我们的文档中阅读更多关于何时使用实体而不是关键字的信息。

什么时候使用关键字

这并不是说关键字过时了。远非如此。它们是一个重要的搜索工具,在这种情况下有两个非常特殊的用途。

第一种是在搜索一个不太为人所知的实体时。例如,一个没有维基百科条目的网站。绝大多数人都没有专门的维基百科页面,所以如果一家公司正在对一个未知的实体或个人进行KYC或CDD研究,基于关键字的搜索可能是最好的方法。

关键字有价值的另一种方式是在优化实体搜索时。例如,将实体搜索Pandora Music与关键字搜索“客户数量”相结合,将真正磨练你的搜索,以提供你想要的确切信息。

为了测试Aylien的News API并发现实体搜索的好处,你可以注册一个14天的免费试用在这里

开始免费试用

消息灵通

我们会不时地通过电子邮件与您联系我们的产品和服务。