有多少Wikidata是有机的用户输入的内容与Wikipedia无关?

问题描述

从数据是由人类输入且独立于Wikipedia的意义上说,我试图找出Wikidata的条目中有多少是“有机的”。

  1. Wikidata introduction page说:“自动bot还将数据输入到Wikidata中。”僵尸程序输入了多少Wikidata数据?

  2. 我知道Wikidata是Wikipedia的独立组织。有多少统计数据来自维基百科? (例如,某人阅读了Wikipedia文章,找到了不在Wikidata中的事实,然后使用该Wikipedia文章作为参考将事实输入Wikidata中。)

我熟悉Wikidata的SPARQL API,可以查找解决这些问题所需的所有内容。

解决方法

当您检查"recent changes"(并停用“仅人类”过滤器)或任何特定页面/项目的历史记录时,这些漫游器会标上一个小“ b”,并且其名称也以“ ... Bot”。

如果仅按“语句数”进行度量,则机器人可能会添加大多数数据。如果按重要性/观点数衡量,那么人类可能会领先。

您没有提到的一组,但可能很重要,在“中间”:使用OpenRefine或QuickStatements半手动匹配(“协调”)某些外部数据集并将其导入的人们。例如,计算生物学界确实将Wikidata用作这种形式的中心。

来自Wikipedia的导入提供了很多结构,因为每个页面都有其wikidata项(并且只有一个)。但是大多数数据来自其他公共数据集。

由于我无法理解的原因,某些Wikipedia和Wikidata之间的关系并不总是完美的。而且,由于每个项目在这些事情上都有很大的自由度,因此有些项目不再使用Wikidata作为存储结构化信息的后端,而是在做自己的事情。发生这种情况时,有人会继续至少在一个方向上进行同步。否则数据开始分歧。例如,最近,英语维基百科已决定采用某种自行开发的方法来管理短页面说明。

(编辑,以回答评论中的问题:)对机器人数据的质量控制通常与其他编辑相同,只是对机器人编辑(以及类似的操作,例如使用QuickStatement的操作)进行了标记。

最近页面的概述吸引了人们对任何更改的注意,以及将项目添加到您的个人监视列表的能力。还有一个AI系统(与en.wikipedia.org上的系统相同)可以预测恶意和低质量的编辑,这些内容会被标记为此类,并在更改中突出显示,并在过滤器中提供。同一用户的相关编辑也被合并到“编辑组”中,this page显示最近的编辑。属性也有很多限制,例如要求出生和死亡的日期是过去,要求将“公民身份”属性的对象设置为人,等等。违反这些约束条件的项目页面以及各种列表中都用(!)标记。因此,属性"awards received"要求object to be a person/creative work/organisation/etc.违反listed here,大约有8000次违规,然后单击其中一个显示a case where a person is missing语句“是:人”。

相关问答

依赖报错 idea导入项目后依赖报错,解决方案:https://blog....
错误1:代码生成器依赖和mybatis依赖冲突 启动项目时报错如下...
错误1:gradle项目控制台输出为乱码 # 解决方案:https://bl...
错误还原:在查询的过程中,传入的workType为0时,该条件不起...
报错如下,gcc版本太低 ^ server.c:5346:31: 错误:‘struct...