XML解析神奇比较Jsoup or Xpath

转载自http://qindongliang.iteye.com/blog/2162519

今天简单测了下使用Jsoup和Xpath解析XML的文件的方便程度，两者都可以完成解析，提取特定的元素或节点内容，但明显Jsoup更胜一筹，我们都知道Xpath是专业的xml结构化文档的查询语言，虽然语法功能强大，但是代码还是比较繁琐。虽然jsoup的出现，并不是专门用来解析XML使用的，但是使用jsoup这个轻巧的类库，我们可以完成网页抓取，HTML解析，模拟登陆等一些功能，jsoup完全仿Jquery的语法，提供了强大的操作DOM的能力，即高效又灵活，本篇，散仙仅仅通过一个简单的例子，来说明，jsoup如何以更少的代码，来完成更多的事。

解析的xml的例子如下：

Xml代码

<?xmlversion="1.0"encoding="UTF-8"?>
<inventory>
<bookyear="2000">
<title>SnowCrash</title>
<author>NealStephenson</author>
<publisher>Spectra</publisher>
<isbn>0553380958</isbn>
<price>14.95</price>
</book>
<bookyear="2005">
<title>BurningTower</title>
<author>LarryNiven</author>
<publisher>Pocket</publisher>
<isbn>0743416910</isbn>
<price>5.99</price>
</book>
<personyear="2014">
<title>你好</title>
<author>星际旅行</author>
<publisher>工业出版社</publisher>
<isbn>2555555555</isbn>
<price>53.5</price>
</person>
<bookyear="1995">
<title>Zodiac</title>
<author>NealStephenson</author>
<publisher>Spectra</publisher>
<isbn>0553573862</isbn>
<price>57.50</price>
</book>
</inventory>

测试功能如下：打印book下的标题和价格，先看下xpath的写法：

Java代码

packagecom.testxpath;
importjavax.xml.parsers.DocumentBuilder;
importjavax.xml.parsers.DocumentBuilderFactory;
importjavax.xml.xpath.XPath;
importjavax.xml.xpath.XPathConstants;
importjavax.xml.xpath.XPathExpression;
importjavax.xml.xpath.XPathFactory;
importorg.w3c.dom.Document;
importorg.w3c.dom.Node;
importorg.w3c.dom.NodeList;
publicclassXpathDemo{
publicstaticvoidmain(String[]args)throwsException{
//Jaxp解析文档
DocumentBuilderFactoryfactory=DocumentBuilderFactory.newInstance();
factory.setNamespaceAware(true);
DocumentBuilderbuilder=factory.newDocumentBuilder();
Documentdoc=builder.parse("a.xml");
XPathFactoryxft=XPathFactory.newInstance();
XPathxpath=xft.newXPath();
XPathExpressionexpr=xpath.compile("//book/title//text()|//book/price//text()");//某个元素下的所有元素
Objectresult=expr.evaluate(doc,XPathConstants.NODESET);
NodeListnodes=(NodeList)result;
for(inti=0;i<nodes.getLength();i++){
Nodeitem=nodes.item(i);
System.out.println("节点名："+item.getNodeName()+"节点值："+item.getNodeValue());
}
}
}

再看下jsoup的写法：

Java代码

packagecom.testxpath;
importjava.io.File;
importorg.jsoup.Jsoup;
importorg.jsoup.nodes.Document;
importorg.jsoup.nodes.Element;
importorg.jsoup.select.Elements;
publicclassJsoupDemo{
publicstaticvoidmain(String[]args)throwsException{
//Documentd=Jsoup.parse("a.xml");//无效
Documentd=Jsoup.parse(newFile("a.xml"),"UTF-8");//必须使用这种方式解析
for(Elementel:d.select("book")){
System.out.println("标题："+el.select("title").text()+"价格："+el.select("price").text());
}
}
}

从上面一个简单的功能，就能看出jsoup的简单，快捷，强大之处了，而且操作的元素非常规整，而Xpath则比较乱，虽然可以拿到具体的文本，但是不规整，想把相关的元素的放在一行打印显示，还需要做一些工作。当然xpath和jsoup的功能，远远不如此，xpath在过滤关面，有很多用法，非常强大，但是节点的准确定位，遍历查询方面，比较弱，而jsoup则使用CSS Query的用法，非常贴切，只要你会用jquery，css，基本使用jsoup都是手到擒来的事，此外，jsoup的强大之处还在网页解析和抽取，有兴趣的朋友，可以了解一下，散仙在这里就不多涉及了.

XML解析神奇比较Jsoup or Xpath

相关文章