如何编写 SPARQL 查询以获取基于外部主题的计数

问题描述

我正在努力编写 SPARQL 查询获取所有者的产品列表以及其他所有者的数量

以下是我希望得到结果的查询

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-Syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX schema:<http://schema.org/>
SELECT distinct ?uri ?label ?r ?ownership ?rating ?comments ?allOwners
FROM <http://xxxx.net/>
WHERE  {
  ?r rdf:type <http://schema.org/Relation> . 
  ?r schema:property ?uri.
  ?r schema:owner ?owner .
  ?r schema:ownership ?ownership .
  ?uri rdfs:label ?label .
  OPTIONAL {?r schema:comments ?comments .}
  OPTIONAL {?r schema:rating ?rating .}
  filter (?owner =<http://xxxx.net/resource/37654824-334f-4e57-a40c-4078cac9c579>)

{
    SELECT (count(distinct ?owner) as ?allOwners)
    FROM <http://xxxx.net/>
    where {
      ?relation rdf:type <http://schema.org/Relation> .
      ?relation schema:owner ?owner .
      ?relation schema:property ?uri .
    } group by ?uri
  }
}

但它会复制结果和随机计数值。

如何编写这样的查询,我知道内部查询在外部查询之前运行,但是如何使用?uri(主题)在内部查询中用于外部结果的每条记录?

解决方法

SPARQL 查询语义指定查询的各个部分如何连接在一起。您的子查询不会投影与外部查询共享的任何公共变量。它仅 SELECT?allOwners 变量,该变量未出现在查询的其余部分中。

这意味着您会得到所有计数和所有其他结果的叉积;这就是为什么你会得到重复的行并且计数和行之间没有相关性。

如果结构正确,可以实现这种查询。由于您尚未提供所需的示例结果,因此我必须对您想要的结果做出最佳猜测。类似以下的内容可能会得到想要的结果:

PREFIX rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#>
PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
PREFIX schema:<http://schema.org/>

SELECT distinct ?uri ?label ?r ?ownership ?rating ?comments ?allOwners
FROM <http://xxxx.net/>
WHERE  
{
  ?r rdf:type <http://schema.org/Relation> . 
  ?r schema:property ?uri.
  ?r schema:owner ?owner .
  ?r schema:ownership ?ownership .
  ?uri rdfs:label ?label .
  FILTER (?owner = <http://xxxx.net/resource/37654824-334f-4e57-a40c-4078cac9c579>)
  {
    SELECT ?uri (count(distinct ?owner) as ?allOwners)
    FROM <http://xxxx.net/>
    WHERE 
    {
      ?relation rdf:type <http://schema.org/Relation> .
      ?relation schema:owner ?owner .
      ?relation schema:property ?uri .
    } GROUP BY ?uri
  }
  OPTIONAL { ?r schema:comments ?comments . }
  OPTIONAL { ?r schema:rating ?rating . }
}

这与您的原始查询的不同之处如下:

  • 在查询中更快地将 FILTER 放在 ?owner 上,以帮助查询引擎更快地应用它。
    • FILTER 位置通常非常灵活,除非您使用嵌套图形模式(如 OPTIONALMINUS),在这种情况下,将它放在这些子句之后可能会晚于你打算
    • 作为一般规则,在引入您需要的所有变量后尽快放置您的 FILTER 子句
  • 将子查询中的 GROUP BY 变量 ?uri 添加到子查询的 SELECT
    • 这可确保查询引擎可以将 ?allOwners 计数与其所属的 ?uri 相关联
    • 这也消除了应该消除重复结果和不良相关性的叉积

这可能是也可能不是您想要的查询,但希望它能帮助您指明正确的方向