本博客是一个系列的一部分,AYLIEN新闻API: Python用户入门指南。你可以查看Jupyter Notebook学习者文档在这里

本系列的其他博客:

入门指南2:优化新闻API查询

入门指南3:如何使用News API Timeseries端点

入门指南4:如何使用新闻API趋势端点

入门指南5:入门指南5:如何使用新闻API集群端点

新闻为组织提供任务关键信息。但是,大量的新闻是压倒性的,导致错过事件、错误的决定和无效的过程。人工智能驱动的新闻智能聚合世界上的新闻内容,使用NLP来了解什么对您的业务重要,并将其发送到您最需要的地方。

在AYLIEN,我们每天摄入超过120万篇文章。但是,如果我们不知道大规模的新闻内容意味着什么,我们无法在需要的时候找到我们需要的东西,那么大量的新闻内容就毫无用处。这就是AYLIEN的自然语言处理(NLP)和文档丰富的地方。

文档浓缩

AYLIEN不仅整理了大量的新闻数据,我们每天使用机器学习和NLP实时将数百万篇非结构化媒体文章转换为结构化数据。换句话说,NLP使我们能够准确地理解每一篇文章所包含的内容。

它通过自动识别大量数据点来实现这一点,比如实体(人、地点、公司、概念、产品等)、新闻类别(超过2600个)和情绪(积极、中立、消极),并提取大量元数据(位置、时间戳、来源、作者等)。这意味着对我们庞大数据库的查询可以细化到非常详细的内容,确保您可以找到对您重要的新闻。

我们将在稍后了解更多关于这种浓缩,但首先是一个简短的介绍AYLIEN的卑微的明星的节目-故事对象。

AYLIEN对象的故事

在AYLIEN的新闻API的核心是故事对象。简单地说,故事是被AYLIEN生态系统吸收的文章和其他媒体,并经历了我们的NLP浓缩过程。然后,可以使用stories端点搜索这些单独的故事。还可以使用Timeseries、Trends和Clusters端点查询这些故事的聚合。您可以在本系列的其他文章中了解更多。

故事对象都使用相同的结构;它们是嵌套的JSON对象,字段包含唯一的故事ID、标题,当然还有文章的正文。

AYLIEN的浓缩过程还增加了进一步的数据点:

元数据提取

发布日期、地理位置、作者和发布者等关键文章信息作为附加字段添加到故事对象中。该信息是将查询限制到特定时间、地区或发布者的基础。

实体提取

我们的模型利用DBPedia的知识库来识别标题和正文中的人物、地点、公司、对象和概念,并使用惟一的id进行标记,从而实现了增强的、准确的搜索功能,并消除了复杂的布尔搜索需求。

了解使用实体而不是关键字的有效性在这里

分类

AYLIEN的NLP将新闻故事分为商业、经济和金融、犯罪、政治、体育和娱乐等几个类别。事实上,我们使用两种新闻分类来帮助用户隔离对他们真正重要的新闻类型,并可以选择是否使用IPTC而且IAB QAG模型。

我们支持的分类法由类别和子类别,或父类别和子类别组成,例如足球是体育的子类别。这使得我们可以轻松地遍历类别并隔离它们需要的新闻域。

情绪分析

在媒体监测中,情感分析是追踪品牌情感、活动成功、公共关系和危机监测的宝贵工具。它可以作为公众意见的酸性测试,并作为一个重要的指标,如何看待一个主题。

我们的模型将文档分为积极、消极或中性情绪。但请关注这个领域——很快我们将推出实体级情绪分析(ELSA),提供更具体的情绪分析。

机器翻译

我们使用自己的机器翻译模型将以英语以外的语言发布的内容翻译回英语。这使得我们可以对多语言内容应用相同的分析模型、标签和丰富内容,这意味着您可以获得与对英语内容相同的搜索、发现和调查能力。

包含非英语内容的故事对象将包括翻译版本和母语,以及上述实体、类别和情感丰富。

增强搜索和使用能力

为什么这些都很重要呢?通过整理大量公开和封闭的新闻内容,应用我们内部的机器翻译,并使用我们的NLP模型丰富文档,我们将碎片化、非结构化的媒体变成了易于搜索和易于处理的有凝聚力、有组织的数据。简而言之,我们做所有繁重的工作,所以你不必。

在本系列的下一篇博客中,我们将研究如何改进News API查询,以识别对您重要的新闻。

本博客是一个系列的一部分,AYLIEN新闻API: Python用户入门指南。你可以查看Jupyter Notebook学习者文档在这里

本系列的其他博客:

入门指南2:优化新闻API查询

入门指南3:如何使用News API Timeseries端点

入门指南4:如何使用新闻API趋势端点

入门指南5:入门指南5:如何使用新闻API集群端点

开始免费试用

消息灵通

我们会不时通过电子邮件与您联系我们的产品和服务。