newsletter3k,我做错了什么,作者功能没有在新闻文章中选择作者

问题描述

这是关于newspaper3k库的作者功能我有这个新闻 URL 列表。 “>>> article.authors” 有时不选择作者。示例如下:authors missing

解决方法

Newspaper3k 使用 PythonBeautiful Soup 从新闻网站中提取项目,例如作者姓名。 Newspaper3k 查询的标签是在Newspaper3k 源代码中预定义的。 Newspaper3k 尽最大努力从新闻网站上的这些标准标签中提取内容。

但是并非所有新闻来源的结构都相同,因此 Newspaper3k 会遗漏某些内容,因为标签(例如,作者)在 HTML 中的位置不同结构。

例如Newspaper3k在这些标签中查找作者姓名:

VALS = ['author','byline','dc.creator','byl']

标签 dc.creator 始终位于新闻来源的 META 标签部分。如果您的新闻来源具有不同的作者标签,​​例如 LA Times 使用的 article.author,,那么您必须像这样查询该标签:

article_meta_data = article.meta_data
article_author = {value for (key,value) in article_meta_data['article'].items() if key == 'author'}

我在我的 newspaper3K overview document 中讨论了许多这些收获问题,我在我的 Github page 上分享了这些问题。