newsletter3k,我做错了什么,作者功能没有在新闻文章中选择作者

问题描述

这是关于newspaper3k库的作者功能我有这个新闻 URL 列表。 “>>> article.authors” 有时不选择作者。示例如下:authors missing

解决方法

Newspaper3k 使用 PythonBeautiful Soup 从新闻网站中提取项目,例如作者姓名。 Newspaper3k 查询的标签是在Newspaper3k 源代码中预定义的。 Newspaper3k 尽最大努力从新闻网站上的这些标准标签中提取内容。

但是并非所有新闻来源的结构都相同,因此 Newspaper3k 会遗漏某些内容,因为标签(例如,作者)在 HTML 中的位置不同结构。

例如Newspaper3k在这些标签中查找作者姓名:

VALS = ['author','byline','dc.creator','byl']

标签 dc.creator 始终位于新闻来源的 META 标签部分。如果您的新闻来源具有不同的作者标签,​​例如 LA Times 使用的 article.author,,那么您必须像这样查询该标签:

article_meta_data = article.meta_data
article_author = {value for (key,value) in article_meta_data['article'].items() if key == 'author'}

我在我的 newspaper3K overview document 中讨论了许多这些收获问题,我在我的 Github page 上分享了这些问题。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...