遍历graphml文件以提取节点值

问题描述

我有数千个grapgml文件,每个文件都有存储在节点中的数据。我想遍历每个文件并从节点中提取数据,然后将其存储为CSV或JSON。下面是一小段代码。我想提取对应于d2,d3,d4的值。任何帮助将不胜感激。

<?xml version='1.0' encoding='utf-8'?>
<graphml xmlns="http://graphml.graphdrawing.org/xmlns" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://graphml.graphdrawing.org/xmlns http://graphml.graphdrawing.org/xmlns/1.0/graphml.xsd">
  <key attr.name="key" attr.type="long" for="edge" id="d8" />
  <key attr.name="length_word" attr.type="long" for="node" id="d6" />
  <key attr.name="chunk_no" attr.type="long" for="node" id="d1" />
  <key attr.name="position" attr.type="long" for="node" id="d3" />
  <key attr.name="morph" attr.type="string" for="node" id="d5" />
  <key attr.name="pre_verb" attr.type="string" for="node" id="d7" />
  <key attr.name="lemma" attr.type="string" for="node" id="d4" />
  <key attr.name="cng" attr.type="long" for="node" id="d0" />
  <key attr.name="word" attr.type="string" for="node" id="d2" />
  <graph edgedefault="directed">
    <node id="1">
      <data key="d2">maDu</data>
      <data key="d0">3</data>
      <data key="d4">maDu</data>
      <data key="d7" />
      <data key="d5">iic.</data>
      <data key="d3">0</data>
      <data key="d1">1</data>
      <data key="d6">5</data>
    </node>
    <node id="2">
      <data key="d2">maDu</data>
      <data key="d0">71</data>
      <data key="d4">maDu</data>
      <data key="d7" />
      <data key="d5">acc. sg. n.</data>
      <data key="d3">0</data>
      <data key="d1">1</data>
      <data key="d6">5</data>
    </node>

解决方法

在XSLT 3.0中,您可以使用以下方法转换一个文件:

<xsl:transform version="3.0"
     xmlns:xsl="http://www.w3.org/1999/XSL/Transform"
     xpath-default-namespace="http://graphml.graphdrawing.org/xmlns">
  <xsl:output method="json"/>
  <xsl:template match="/">
    <xsl:sequence select="array{//node ! 
          map{'d2':string(data[@key='d2']),'d3':string(data[@key='d3']),'d4':string(data[@key='d4'])}})"/>
  </xsl:template>
</xsl:transform>

要处理多个文件,请添加例如(如果文件可以通过data/dir/*.xml访问)

<xsl:template name="xsl:initial-template">
  <xsl:apply-templates select="collection('data/dir?select=*.xml')"/>
</xsl:template>

此处的集合URI的语法是Saxon特定的。

未经测试。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...