问题描述
这是关于newspaper3k库的作者功能。我有这个新闻 URL 列表。 “>>> article.authors” 有时不选择作者。示例如下:authors missing
解决方法
Newspaper3k 使用 Python 包 Beautiful Soup 从新闻网站中提取项目,例如作者姓名。 Newspaper3k 查询的标签是在Newspaper3k 源代码中预定义的。 Newspaper3k 尽最大努力从新闻网站上的这些标准标签中提取内容。
但是并非所有新闻来源的结构都相同,因此 Newspaper3k 会遗漏某些内容,因为标签(例如,作者)在 HTML 中的位置不同结构。
例如Newspaper3k在这些标签中查找作者姓名:
VALS = ['author','byline','dc.creator','byl']
标签 dc.creator 始终位于新闻来源的 META 标签部分。如果您的新闻来源具有不同的作者标签,例如 LA Times 使用的 article.author,,那么您必须像这样查询该标签:
article_meta_data = article.meta_data
article_author = {value for (key,value) in article_meta_data['article'].items() if key == 'author'}
我在我的 newspaper3K overview document 中讨论了许多这些收获问题,我在我的 Github page 上分享了这些问题。