问题描述
从数据是由人类输入且独立于Wikipedia的意义上说,我试图找出Wikidata的条目中有多少是“有机的”。
-
Wikidata introduction page说:“自动bot还将数据输入到Wikidata中。”僵尸程序输入了多少Wikidata数据?
-
我知道Wikidata是Wikipedia的独立组织。有多少统计数据来自维基百科? (例如,某人阅读了Wikipedia文章,找到了不在Wikidata中的事实,然后使用该Wikipedia文章作为参考将事实输入Wikidata中。)
我熟悉Wikidata的SPARQL API,可以查找解决这些问题所需的所有内容。
解决方法
当您检查"recent changes"(并停用“仅人类”过滤器)或任何特定页面/项目的历史记录时,这些漫游器会标上一个小“ b”,并且其名称也以“ ... Bot”。
如果仅按“语句数”进行度量,则机器人可能会添加大多数数据。如果按重要性/观点数衡量,那么人类可能会领先。
您没有提到的一组,但可能很重要,在“中间”:使用OpenRefine或QuickStatements半手动匹配(“协调”)某些外部数据集并将其导入的人们。例如,计算生物学界确实将Wikidata用作这种形式的中心。
来自Wikipedia的导入提供了很多结构,因为每个页面都有其wikidata项(并且只有一个)。但是大多数数据来自其他公共数据集。
由于我无法理解的原因,某些Wikipedia和Wikidata之间的关系并不总是完美的。而且,由于每个项目在这些事情上都有很大的自由度,因此有些项目不再使用Wikidata作为存储结构化信息的后端,而是在做自己的事情。发生这种情况时,有人会继续至少在一个方向上进行同步。否则数据开始分歧。例如,最近,英语维基百科已决定采用某种自行开发的方法来管理短页面说明。
(编辑,以回答评论中的问题:)对机器人数据的质量控制通常与其他编辑相同,只是对机器人编辑(以及类似的操作,例如使用QuickStatement的操作)进行了标记。
最近页面的概述吸引了人们对任何更改的注意,以及将项目添加到您的个人监视列表的能力。还有一个AI系统(与en.wikipedia.org上的系统相同)可以预测恶意和低质量的编辑,这些内容会被标记为此类,并在更改中突出显示,并在过滤器中提供。同一用户的相关编辑也被合并到“编辑组”中,this page显示最近的编辑。属性也有很多限制,例如要求出生和死亡的日期是过去,要求将“公民身份”属性的对象设置为人,等等。违反这些约束条件的项目页面以及各种列表中都用(!)标记。因此,属性"awards received"要求object to be a person/creative work/organisation/etc.违反listed here,大约有8000次违规,然后单击其中一个显示a case where a person is missing语句“是:人”。