xml解析神器PK,花落谁家?Jsoup Or Xpath?

原文:点击打开链接

今天简单测了下使用Jsoup和Xpath解析XML的文件的方便程度,两者都可以完成解析,提取特定的元素或节点内容,但明显Jsoup更胜一筹,我们都知道Xpath是专业的xml结构化文档的查询语言,虽然语法功能强大,但是代码还是比较繁琐。虽然jsoup的出现,并不是专门用来解析XML使用的,但是使用jsoup这个轻巧的类库,我们可以完成网页抓取,HTML解析,模拟登陆等一些功能,jsoup完全仿Jquery的语法,提供了强大的操作DOM的能力,即高效又灵活,本篇,散仙仅仅通过一个简单的例子,来说明,jsoup如何以更少的代码,来完成更多的事。


解析的xml的例子如下:


Xml代码
  1. <?xmlversion="1.0"encoding="UTF-8"?>
  2. <inventory>
  3. bookyear="2000"title>SnowCrash</author>NealStephensonpublisher>Spectraisbn>0553380958price>14.95bookbookyear="2005">BurningTower>LarryNiven>Pocket>0743416910>5.99personyear="2014">你好>星际旅行>工业出版社>2555555555>53.5personbookyear="1995">Zodiac>0553573862>57.50>

测试功能如下:打印book下的标题和价格,先看下xpath的写法:
Java代码
    packagecom.testxpath;
  1. importjavax.xml.parsers.DocumentBuilder;
  2. importjavax.xml.parsers.DocumentBuilderFactory;
  3. importjavax.xml.xpath.XPath;
  4. importjavax.xml.xpath.XPathConstants;
  5. importjavax.xml.xpath.XPathExpression;
  6. importjavax.xml.xpath.XPathFactory;
  7. importorg.w3c.dom.Document;
  8. importorg.w3c.dom.Node;
  9. importorg.w3c.dom.NodeList;
  10. publicclassXpathDemo{
  11. staticvoidmain(String[]args)throwsException{
  12. //Jaxp解析文档
  13. DocumentBuilderFactoryfactory=DocumentBuilderFactory.newInstance();
  14. factory.setNamespaceAware(true);
  15. DocumentBuilderbuilder=factory.newDocumentBuilder();
  16. Documentdoc=builder.parse("a.xml");
  17. XPathFactoryxft=XPathFactory.newInstance();
  18. XPathxpath=xft.newXPath();
  19. XPathExpressionexpr=xpath.compile("//book/title//text()|//book/price//text()");//某个元素下的所有元素
  20. Objectresult=expr.evaluate(doc,XPathConstants.NODESET);
  21. NodeListnodes=(NodeList)result;
  22. for(inti=0;i<nodes.getLength();i++){
  23. Nodeitem=nodes.item(i);
  24. System.out.println("节点名:"+item.getNodeName()+"节点值:"+item.getNodeValue());
  25. }
  26. }

再看下jsoup的写法: importjava.io.File;
  • importorg.jsoup.Jsoup;
  • importorg.jsoup.nodes.Document;
  • importorg.jsoup.nodes.Element;
  • importorg.jsoup.select.Elements;
  • classJsoupDemo{
  • //Documentd=Jsoup.parse("a.xml");//无效
  • Documentd=Jsoup.parse(newFile("a.xml"),"UTF-8");//必须使用这种方式解析
  • for(Elementel:d.select("book")){
  • System.out.println("标题:"+el.select("title").text()+"价格:"+el.select("price").text());
  • 从上面一个简单的功能,就能看出jsoup的简单,快捷,强大之处了,而且操作的元素非常规整,而Xpath则比较乱,虽然可以拿到具体的文本,但是不规整,想把相关的元素的放在一行打印显示,还需要做一些工作。 当然xpath和jsoup的功能,远远不如此,xpath在过滤关面,有很多用法,非常强大,但是节点的准确定位,遍历查询方面,比较弱,而jsoup则使用CSS Query的用法,非常贴切,只要你会用jquery,css,基本使用jsoup都是手到擒来的事,此外,jsoup的强大之处还在网页解析和抽取,有兴趣的朋友,可以了解一下,散仙在这里就不多涉及了.
  • 相关文章

    php输出xml格式字符串
    J2ME Mobile 3D入门教程系列文章之一
    XML轻松学习手册
    XML入门的常见问题(一)
    XML入门的常见问题(三)
    XML轻松学习手册(2)XML概念