本博客是AYLIEN NEWS API系列的一部分:Python用户入门指南。您可以查看Jupyter Notebook学习者文档在这里

新闻的数量是压倒性的——传统的媒体监测和新闻分析方法根本不足以处理持续不断的新闻数据流。因此,新闻情报已经成为一种跟踪新闻的自动化手段,使组织能够识别风险和机会,并在必要时促使果断行动。

在到目前为止的这个系列博客中,我们已经了解了AYLIEN的新闻API每天如何吸收和丰富数百万个新闻文档,为碎片化、非结构化数据提供聚合,并使它们易于搜索和处理。我们还研究了Timeseries和Trends端点如何聚合这些数据,并帮助我们快速分析大量新闻。

在本系列的最后一篇博客中,我们将研究另一个API端点,该端点聚合各个故事,以帮助我们大规模地理解新闻报道——群集端点。

什么是新闻聚类?

从本质上讲,新闻往往会自我重复;多个新闻故事将存在,报道相同或相似的主题。具有吸引力的新闻事件可以被许多作者、许多来源、许多国家和许多语言多次报道,而新闻事件的生命周期意味着它可能只在公众视野中停留一天或几周。

使用AYLIEN的NLP丰富,我们可以使用机器学习来理解每一篇文章,并实时有效地将涵盖相同事件或主题的文档分组在一起,而不考虑文章发表的时间、来源甚至是文章使用的语言。

为什么这有用?

这种在主题或事件级别对世界新闻进行分割和分组的能力使我们的用户能够极大地提高其应用程序和流程的效率和准确性。使用集群,我们可以识别新闻中获得关注和覆盖率增加的主题和事件,允许我们执行自动事件检测和主题发现,这对于监视突发新闻特别有用。

它还使我们能够重复和总结新闻。人工分析大规模新闻是不可能的——使用集群,用户只需要手动查看集群中心的一篇有代表性的文章,就可以在多个集群中总结和归纳大量新闻。

集群对象

集群对象是一个JSON对象,它提供一个集群ID以及关于该集群中故事的元数据。每个集群对象都与组成该集群的故事的数量相关,这使得发现和识别新的或正在增长的集群变得很容易。通常情况下,集群的大小可以作为一个新的或重要的事件展开的有力指标。其他筛选器选项包括源位置,允许您轻松构建本地化的集群搜索。

故事对象将依次引用它们所属的集群ID。一个故事永远只属于一个集群,故事和集群之间的关系不会改变——它不会在以后被重新分配到另一个集群。

群集对象还包括一个代表性的故事,该故事最好地总结了群集引用的事件。这是非常有用的,它允许我们从总体上理解集群是关于什么的。

我们可以直接从clusters端点提取集群。然而,虽然我们可以定义时间、位置和集群ID参数,但由于集群的性质,我们不能以通常用于其他端点的方式定义关键字或实体参数。相反,我们通常使用两种方法之一来拉集群,我们将在下面讨论这两种方法。

使用趋势端点探索集群

我们已经注意到,我们可以通过定义集群ID来拉出集群,但是在查询集群ID之前,我们如何知道要查询哪些集群ID呢?我们可以使用趋势端点根据集群中包含的故事来筛选集群。例如,您可以筛选包含具有特定类别标签的故事、提到特定实体或甚至具有特定情感评分的集群。

使用Trends端点,我们可以返回集群的ID,根据与每个符合标准的集群相关联的故事的数量进行排序。当我们有了集群id列表后,我们就可以从Clusters端点获取集群元数据。

使用Stories端点检索集群

检索集群的另一种方法是使用Stories端点。首先,我们对故事端点运行一个查询,并检索所有满足我们标准的故事。然后,我们可以遍历故事,提取它们所属的集群ID。最后,通过这个列表,我们可以查询Clusters端点以检索所需的集群元数据。

集群可视化

可视化集群数据是一种很好的方法,可以快速概述新闻场景,并对您感兴趣的领域进行鸟瞰。在下面的示例图表中,我们使用趋势端点来标识与花旗银行相关的所有集群。然后我们提取集群元数据,在y轴上按集群的大小绘制集群,在x轴上按其代表性文章的发表日期绘制集群。最后,还用它们的代表性文章对集群进行了标记,为我们提供了每个集群的背景。

这个强大的探索工具允许我们快速可视化地扫描和识别花旗集团所引用的最重要的新闻集群。

查看我们如何使用集群进行调查国家风险自然灾害

结论

在本系列博客中,我们概述了AYLIEN的聚合和NLP丰富过程、位于API中心的故事对象以及我们可以用来检索和分析新闻的各种端点。

伴随Jupyter笔记本,我们向您展示了如何使用AYLIEN的News API快速启动和运行,以及一些有用的代码,以开始使用Pandas在Python中处理数据,并使用Plotly将其可视化。本指南将为您提供基本的理解和工具,帮助您立即开始探索新闻!

现在去获得这些见解吧!

本博客是AYLIEN NEWS API系列的一部分:Python用户入门指南。您可以查看Jupyter Notebook学习者文档在这里

本系列的其他博客:

入门指南1:AYLIEN的故事对象——自然语言处理丰富和如何使用的入门

入门指南2:精炼您的新闻API查询

初学者指南3:如何使用新闻API时间序列端点

初学者指南4:如何使用新闻API趋势端点

开始免费试用

消息灵通

我们会不时地通过电子邮件与您联系我们的产品和服务。