本博客是AYLIEN NEWS API系列的一部分:Python用户入门指南。您可以查看Jupyter Notebook学习者文档在这里

新闻的数量和不间断的本质是压倒性的——这就是为什么大型组织需要新闻情报平台,如果他们想要真正地利用新闻的力量为他们的利益服务。

在本系列的上一篇博客中,我们回顾了AYLIEN每天如何将数百万新闻故事吸收到我们的生态系统中。但是,如果我们不知道大规模新闻内容的含义,我们无法在需要的时候找到我们需要的东西,那么大量的新闻内容就毫无用处。这就是为什么我们使用机器学习和自然语言处理(NLP)来构造、丰富和标记这些文档,使它们易于搜索和处理。

在本博客中,我们将介绍您可以用来改进新闻API查询的各种方法,以确定对您的业务有重要意义的新闻。

带时间参数的关键字搜索

我们可以在AYLIEN的News API上执行的最基本的查询之一是搜索关键字。这类似于使用搜索引擎在AYLIEN的新闻数据库中查找一个词的提及。

不用说,如果我们不定义任何时间限制,符合我们的关键字搜索标准的新闻故事的数量可能是巨大的。记住这一点,最好定义尽可能精确的时间窗口,以减少满足您需求的故事的数量。

布尔搜索

关键字是一个很好的起点,但是如果我们想要识别两个关键字的存在呢?如果我们想要识别那些提到两个关键字但又没有提到另一个关键字的故事呢?或者,如果我们想返回满足一个或另一个关键字标准的故事呢?

布尔搜索允许用户将关键字与操作符(如AND、NOT和OR)结合起来,以优化搜索以满足我们的需求。例如,我们可以通过搜索“Apple”关键词来搜索与苹果公司有关的新闻;我们可以将其扩展为“苹果不是水果”,以明确表示我们对提到苹果和水果的文章不感兴趣。

实体搜索

虽然关键字搜索在我们对非常独特的术语的提及感兴趣的情况下是有用的,但过度依赖基于关键字的搜索是有问题的,因为它们容易由于词汇歧义而返回不相关的结果(例如Apple vs Apple)。解决这个问题需要冗长、复杂的查询,创建、更新和维护这些查询需要花费大量的时间,这会对工作效率产生负面影响。

值得庆幸的是,AYLIEN的News API提供了一个解决方案。使用机器学习和自然语言处理,我们的模型识别和标记故事中的实体,用数据点丰富我们的文档,增强搜索和使用能力。这意味着人们、地点、公司和概念将被标记为唯一的id,这使得寻找它们的任务变得非常非常容易。

在这里了解更多关于使用实体而不是关键字的有效性。

分类搜索

我们可以看到,关键字和实体帮助我们识别那些提到我们感兴趣的项目的故事,但除非我们详细设计关键字搜索或包含实体列表,否则我们无法确定故事的上下文。例如,如果我们搜索实体Facebook,我们可以得到无数与娱乐、数据隐私或商业有关的故事。

AYLIEN的NLP丰富将新闻故事分类为新闻类别,如商业、经济和金融、犯罪、政治、体育、娱乐和许多其他。事实上,我们使用两种新闻分类法来帮助我们的用户隔离对他们真正重要的新闻类型,并可以在使用之间进行选择IPTC而且IAB QAG模型。

例如,如果我对与Facebook股价相关的商业报道感兴趣,我可以定义股票和Facebook实体的新闻类别参数。同样,如果我对追踪全球范围内的国家风险故事感兴趣,我可以将其限制在犯罪、内乱、冲突、战争和恐怖主义类别,而不需要指定任何关键字或实体类型。

精炼您的查询-一个简单的例子

我们可以展示如何结合所有这些元素来细化查询并分离与业务相关的故事。下面的图表关系到细化查询的迭代阶段和它们分别返回的故事数量。

作为一个概念的证明,我们决定随机抽取一天与苹果公司有关的负面商业报道。首先,我们搜索所有包含关键词“apple”的故事,返回13K个故事。我们将其修改为使用Apple Inc的唯一实体ID搜索Apple Inc,将输出减少到10K。接下来,我们指定类别经济、业务和金融,将故事进一步减少到7K。

最后,我们将搜索限制在那些被分类为具有负面情绪的文档上,结果是减少了1.4万个故事的数量。在本系列的下一篇博客中查看我们是如何利用情绪的。

在本系列的下一篇博客中,我们将研究如何使用Timeseries端点来分析新闻内容随时间变化的宏观层面变化。

本博客是AYLIEN NEWS API系列的一部分:Python用户入门指南。您可以查看Jupyter Notebook学习者文档在这里

本系列的其他博客:

入门指南1:AYLIEN的故事对象——自然语言处理丰富和如何使用的入门

初学者指南3:如何使用新闻API时间序列端点

初学者指南4:如何使用新闻API趋势端点

初学者指南5:初学者指南5:如何使用新闻API集群端点

开始免费试用

消息灵通

我们会不时地通过电子邮件与您联系我们的产品和服务。