跟随我们成功推出了丰富的冠状病毒新闻数据集,我们刚刚完成了另外三个数据集可供下载。

我们构建了这些数据集,为您提供了可以从我们的新闻API中检索的数据的快照,从而深入了解我们为API用户提供的内容,内容质量和NLP丰富。

我们创建了由数以千计的新闻文章组成的数据集,这些新闻文章是从涵盖自然灾害,金融犯罪和纳斯达克100的数百种可信赖的来源收集的。

自然灾害数据集

在八个月内下载有关自然灾害的新闻文章集。

数据集详细信息:

  • 尺寸:0.5 GB(约34,000篇新闻文章)
  • 语:仅英语内容
  • 大体时间:2019年5月 - 2019年12月
  • 资料来源:141个不同的来源

在这里下载。

金融犯罪数据集

调查金融犯罪事件以及与媒体报道的与之相关的实体。

数据集详细信息:

  • 尺寸:0.3 GB(约20,000篇新闻文章)
  • 语:仅英语内容
  • 大体时间:2019年5月 - 2019年12月
  • 资料来源:147个不同的来源

在这里下载。

纳斯达克100数据集

分析与纳斯达克100公司有关的新闻文章,在Covid19世界上。

数据集详细信息:

  • 尺寸:0.7 GB(约38,000篇新闻文章)
  • 语:仅英语内容
  • 大体时间:2019年11月
  • 资料来源:107个不同的来源

在这里下载。

数据格式

下载后,数据采用压缩GZIP格式。未压缩的文件是JSONL格式,其中一行与一个故事对象相关。了解有关Aylien的故事对象的更多信息这里

NASDAQ-100文件包括每个公司的一个单独文件。自然灾害和金融犯罪数据集包含一个文件。

谁可以使用数据?

这些数据集为评估可以通过我们的新闻API提取的数据提供了有用的资源,无法在商业项目中使用。

如果您想了解一个特定的数据集,请与我们联系,我们会看到我们可以为您构建它。如果您想收集自己的新闻情报平台您可以注册到下面。

开始你的免费试用

保持知情

我们不时通过电子邮件与您联系有关我们的产品和服务。