问题描述
我在三元组中有一个 RDF 本体,用户可以对其进行更改。我想在每次更改时增加/更改本体版本。一种方法是使用本体图的哈希作为版本。为此,我需要使用 SPARQL 计算 RDF 图的哈希值,因为这是唯一可用的 API。
解决方法
我意识到这可以通过 2 个步骤来解决:
- 使用 SPARQL 生成稳定的图序列化(例如,具有稳定排序的 N-Triples)
- 应用 SPARQL hash functions 之一来获取实际哈希值
在 suggestions on Twitter 之后,我想出了这个似乎生成有效 N-Triples 的查询:
SELECT (GROUP_CONCAT(?tripleStr ; separator=' \n') AS ?nTriples)
WHERE
{ ?s ?p ?o
BIND(if(isURI(?s),concat("<",str(?s),">"),concat("_:",str(?s))) AS ?sStr)
BIND(concat("<",str(?p),">") AS ?pStr)
BIND(if(isURI(?o),str(?o),if(isBlank(?o),str(?o)),concat("\"","\"",if(( lang(?o) != "" ),concat("@",str(lang(?o))),concat("^^<",str(datatype(?o)),">"))))) AS ?oStr)
BIND(concat(?sStr," ",?pStr,?oStr," .") AS ?tripleStr)
}
ORDER BY ?s ?p ?o datatype(?o) lcase(lang(?o))
请尝试一下并报告错误(如果有)。该方法可以很容易地扩展到 N-Quads。 正如 Twitter 上指出的那样,它不会扩展到大型数据集。
现在,获取图形的实际散列就像将 SELECT
条件更改为:
SELECT (SHA1(GROUP_CONCAT(?tripleStr; separator=" \n")) AS ?graphHash)
这里我们使用了 SHA1
哈希函数。