如何使用Ruby nokogiri对XML文件进行排序

问题描述

我想对XML进行排序,以便首先显示相同类型的受众特征,就像所有staty_type =“ REACH”出现在顶部一样,然后是所有点击,依此类推。

这是一个示例对象:

<?xml version="1.0"?>
<properties date="2020-06-23">
    <property>
        <order start="2020-06-23" end="2020-06-23">52658</order>
        <demographics demographic="Age" stat_type="REACH">
            <value category="18-24">36</value>
            <value category="25-34">149</value>
        </demographics>
        <demographics demographic="Age" stat_type="CLICK">
            <value category="18-24">6</value>
            <value category="25-34">37</value>
        </demographics>
        <demographics demographic="Gender" stat_type="REACH">
            <value category="female">402</value>
            <value category="male">188</value>
        </demographics>
        <demographics demographic="Gender" stat_type="CLICK">
            <value category="female">107</value>
            <value category="male">44</value>
        </demographics>

    </property>
</properties> 

我能够迭代XML。但是,无法执行排序。

    @doc = Nokogiri::XML(File.open("public/test.xml"))
        builder = @doc.xpath("//property")

        builder.search('./demographics').sort_by{|t| puts t['stat_type']}.each do |table|                           
                puts table.to_s
        end

我需要这种形式的最终XML。

<?xml version="1.0"?>
<properties date="2020-06-23">
    <property>
        <order start="2020-06-23" end="2020-06-23">PBNI152658</order>
        <demographics demographic="Age" stat_type="REACH">
            <value category="18-24">36</value>
            <value category="25-34">149</value>
        </demographics>
        <demographics demographic="Gender" stat_type="REACH">
            <value category="female">402</value>
            <value category="male">188</value>
        </demographics>
        <demographics demographic="Age" stat_type="CLICK">
            <value category="18-24">6</value>
            <value category="25-34">37</value>
        </demographics>
        <demographics demographic="Gender" stat_type="CLICK">
            <value category="female">107</value>
            <value category="male">44</value>
        </demographics>

    </property>
</properties>

解决方法

执行builder.search('./demographics')之类的操作时,只需创建一个 new 节点集,并从初始XML文档中过滤掉一些节点。即使您对这个新节点集进行排序,也不会影响初始文档本身。

要对初始文档的节点进行排序,您必须重建所讨论节点的子节点(在您的情况下为<property>)。这带来了一个微小的附加挑战-Nokogiri解析了更多的节点要考虑,而不仅仅是要排序的节点:

pry(main)> @doc.at_xpath("//property").children.map(&:node_name)
=> ["text","order","text","demographics","text"]

因此,我们要做的是仅对受众特征节点进行排序,并保持其他所有内容不变。做到这一点的方法之一是:

property_node = @doc.at_xpath("//property")

nodes_to_sort = property_node.children.dup

# My sorting logic is dumb here,apply your own as necessary
sorted_demographics = nodes_to_sort.select { |n| n.node_name == "demographics" }.sort_by { |n| n.attr("stat_type") }.reverse

# Create an empty nodeset. There should be a more idiomatic and readable way but this trick works too
new_nodeset = nodes_to_sort - nodes_to_sort

nodes_to_sort.each do |n|
  case n.node_name
  when "demographics"
    new_nodeset << sorted_demographics.shift
  else
    new_nodeset << n
  end
end

property_node.children = new_nodeset

瞧! -我们现在进行了排序:

pry(main)> puts @doc
<?xml version="1.0"?>
<properties date="2020-06-23">
    <property>
        <order start="2020-06-23" end="2020-06-23">52658</order>
        <demographics demographic="Gender" stat_type="REACH">
            <value category="female">402</value>
            <value category="male">188</value>
        </demographics>
        <demographics demographic="Age" stat_type="REACH">
            <value category="18-24">36</value>
            <value category="25-34">149</value>
        </demographics>
        <demographics demographic="Gender" stat_type="CLICK">
            <value category="female">107</value>
            <value category="male">44</value>
        </demographics>
        <demographics demographic="Age" stat_type="CLICK">
            <value category="18-24">6</value>
            <value category="25-34">37</value>
        </demographics>

    </property>
</properties>

NB。将上述解决方案付诸实践-我不太了解nokogiri的XML构建功能,因此,有一些方法可以用更少的代码/以更惯用的方式实现相同的结果。