XML文档解析DOM、SAX、JDOM、DOM4j、XPath



http://blog.csdn.net/linghu_java/article/details/40155899

http://blog.csdn.net/linghu_java/article/details/40155899

http://blog.csdn.net/linghu_java/article/details/40155899

http://blog.csdn.net/linghu_java/article/details/40155899









XML文档解析DOM、SAX、JDOM、DOM4j、XPath

分类:Android开发Java开发 40人阅读 评论(0) 收藏 举报

目录(?)[+]

关键字:Java解析xml、解析xml四种方法、DOM、SAX、JDOM、DOM4j、XPath

目前在Java中用于解析XML的技术很多,主流的有DOM、SAX、JDOM、DOM4j,下文主要介绍这4种解析XML文档技术的使用、优缺点及性能测试。

一、【基础知识——扫盲】

sax、dom是两种对xml文档进行解析的方法(没有具体实现,只是接口),所以只有它们是无法解析xml文档的;jaxp只是api,它进一步封装了sax、dom两种接口,并且提供了DomcumentBuilderFactory/DomcumentBuilder和SAXParserFactory/SAXParser(默认使用xerces解释器)。

二、【DOM、SAX、JDOM、DOM4j简单使用介绍】

1、【DOM(Document Object Model) 】
由W3C提供的接口,它将整个XML文档读入内存,构建一个DOM树来对各个节点(Node)进行操作。
示例代码:
[html] view plain copy
  1. <?xmlversion="1.0"encoding="UTF-8"?>
  2. <universityname="pku">
  3. collegename="c1">
  4. classname="class1"studentname="stu1"sex='male'age="21"/>
  5. studentname="stu2"sex='female'age="20"/>
  6. studentname="stu3"sex='female'age="20"</classclassname="class2"studentname="stu4"sex='male'age="19"studentname="stu5"sex='female'age="20"studentname="stu6"sex='female'age="21"collegecollegename="c2"classname="class3"studentname="stu7"sex='male'age="20"collegename="c3"university>
后文代码中有使用到text.xml(该文档放在src路径下,既编译后在classes路径下),都是指该xml文档。
[java] copy
    packagetest.xml;
  1. importjava.io.File;
  2. importjava.io.FileNotFoundException;
  3. importjava.io.FileOutputStream;
  4. importjava.io.IOException;
  5. importjava.io.InputStream;
  6. importjavax.xml.parsers.DocumentBuilder;
  7. importjavax.xml.parsers.DocumentBuilderFactory;
  8. importjavax.xml.parsers.ParserConfigurationException;
  9. importjavax.xml.transform.Transformer;
  10. importjavax.xml.transform.TransformerConfigurationException;
  11. importjavax.xml.transform.TransformerException;
  12. importjavax.xml.transform.TransformerFactory;
  13. importjavax.xml.transform.dom.DOMSource;
  14. importjavax.xml.transform.stream.StreamResult;
  15. importorg.w3c.dom.Document;
  16. importorg.w3c.dom.Element;
  17. importorg.w3c.dom.Node;
  18. importorg.w3c.dom.NodeList;
  19. importorg.w3c.dom.Text;
  20. importorg.xml.sax.SAXException;
  21. /**
  22. *dom读写xml
  23. *@authorwhwang
  24. */
  25. publicclassTestDom{
  26. staticvoidmain(String[]args){
  27. read();
  28. //write();
  29. }
  30. voidread(){
  31. DocumentBuilderFactorydbf=DocumentBuilderFactory.newInstance();
  32. try{
  33. DocumentBuilderbuilder=dbf.newDocumentBuilder();
  34. InputStreamin=TestDom.class.getClassLoader().getResourceAsStream("test.xml");
  35. Documentdoc=builder.parse(in);
  36. //root<university>
  37. Elementroot=doc.getDocumentElement();
  38. if(root==null)return;
  39. System.err.println(root.getAttribute("name"));
  40. //allcollegenode
  41. NodeListcollegeNodes=root.getChildNodes();
  42. if(collegeNodes==for(inti=0;i<collegeNodes.getLength();i++){
  43. Nodecollege=collegeNodes.item(i);
  44. if(college!=null&&college.getNodeType()==Node.ELEMENT_NODE){
  45. System.err.println("\t"+college.getAttributes().getNamedItem("name").getNodeValue());
  46. //allclassnode
  47. NodeListclassNodes=college.getChildNodes();
  48. if(classNodes==continue;
  49. intj=0;j<classNodes.getLength();j++){
  50. Nodeclazz=classNodes.item(j);
  51. if(clazz!=null&&clazz.getNodeType()==Node.ELEMENT_NODE){
  52. System.err.println("\t\t"+clazz.getAttributes().getNamedItem("name").getNodeValue());
  53. //allstudentnode
  54. NodeListstudentNodes=clazz.getChildNodes();
  55. if(studentNodes==continue;
  56. intk=0;k<studentNodes.getLength();k++){
  57. Nodestudent=studentNodes.item(k);
  58. if(student!=null&&student.getNodeType()==Node.ELEMENT_NODE){
  59. System.err.print("\t\t\t"+student.getAttributes().getNamedItem("name").getNodeValue());
  60. System.err.print(""+student.getAttributes().getNamedItem("sex").getNodeValue());
  61. System.err.println(""+student.getAttributes().getNamedItem("age").getNodeValue());
  62. }
  63. }catch(ParserConfigurationExceptione){
  64. e.printStackTrace();
  65. catch(FileNotFoundExceptione){
  66. catch(SAXExceptione){
  67. catch(IOExceptione){
  68. voidwrite(){
  69. DocumentBuilderFactorydbf=DocumentBuilderFactory.newInstance();
  70. try{
  71. DocumentBuilderbuilder=dbf.newDocumentBuilder();
  72. InputStreamin=TestDom.class.getClassLoader().getResourceAsStream("test.xml");
  73. Documentdoc=builder.parse(in);
  74. //root<university>
  75. Elementroot=doc.getDocumentElement();
  76. return;
  77. //修改属性
  78. root.setAttribute("name","tsu");
  79. NodeListcollegeNodes=root.getChildNodes();
  80. if(collegeNodes!=null){
  81. 0;i<collegeNodes.getLength()-1;i++){
  82. //删除节点
  83. if(college.getNodeType()==Node.ELEMENT_NODE){
  84. StringcollegeName=college.getAttributes().getNamedItem("name").getNodeValue();
  85. if("c1".equals(collegeName)||"c2".equals(collegeName)){
  86. root.removeChild(college);
  87. elseif("c3".equals(collegeName)){
  88. ElementnewChild=doc.createElement("class");
  89. newChild.setAttribute("name","c4");
  90. college.appendChild(newChild);
  91. //新增节点
  92. ElementaddCollege=doc.createElement("college");
  93. addCollege.setAttribute("name","c5");
  94. root.appendChild(addCollege);
  95. Texttext=doc.createTextNode("text");
  96. addCollege.appendChild(text);
  97. //将修改后的文档保存到文件
  98. TransformerFactorytransFactory=TransformerFactory.newInstance();
  99. TransformertransFormer=transFactory.newTransformer();
  100. DOMSourcedomSource=newDOMSource(doc);
  101. Filefile=newFile("src/dom-modify.xml");
  102. if(file.exists()){
  103. file.delete();
  104. file.createNewFile();
  105. FileOutputStreamout=newFileOutputStream(file);
  106. StreamResultxmlResult=newStreamResult(out);
  107. transFormer.transform(domSource,xmlResult);
  108. System.out.println(file.getAbsolutePath());
  109. catch(TransformerConfigurationExceptione){
  110. catch(TransformerExceptione){
  111. }
该代码只要稍做修改,即可变得更加简洁,无需一直写if来判断是否有子节点。

2、【SAX (Simple API for XML) 】
SAX不用将整个文档加载到内存,基于事件驱动的API(Observer模式),用户只需要注册自己感兴趣的事件即可。SAX提供EntityResolver,DTDHandler,ContentHandler,ErrorHandler接口,分别用于监听解析实体事件、DTD处理事件、正文处理事件和处理出错事件,与AWT类似,SAX还提供了一个对这4个接口默认的类DefaultHandler(这里的默认实现,其实就是一个空方法),一般只要继承DefaultHandler,重写自己感兴趣的事件即可。
copy
    importjava.io.IOException;
  1. importjava.io.InputStream;
  2. importjavax.xml.parsers.ParserConfigurationException;
  3. importjavax.xml.parsers.SAXParser;
  4. importjavax.xml.parsers.SAXParserFactory;
  5. importorg.xml.sax.Attributes;
  6. importorg.xml.sax.InputSource;
  7. importorg.xml.sax.Locator;
  8. importorg.xml.sax.SAXException;
  9. importorg.xml.sax.SAXParseException;
  10. importorg.xml.sax.helpers.DefaultHandler;
  11. /**
  12. *
  13. *@authorwhwang
  14. */
  15. classTestSAX{
  16. voidmain(String[]args){
  17. read();
  18. write();
  19. voidread(){
  20. SAXParserFactoryfactory=SAXParserFactory.newInstance();
  21. SAXParserparser=factory.newSAXParser();
  22. InputStreamin=TestSAX. parser.parse(in,newMyHandler());
  23. voidwrite(){
  24. System.err.println("纯SAX对于写操作无能为力");
  25. //重写对自己感兴趣的事件处理方法
  26. classMyHandlerextendsDefaultHandler{
  27. @Override
  28. publicInputSourceresolveEntity(StringpublicId,StringsystemId)
  29. throwsIOException,SAXException{
  30. returnsuper.resolveEntity(publicId,systemId);
  31. voidnotationDecl(Stringname,StringpublicId,153); font-weight:bold; background-color:inherit">throwsSAXException{
  32. super.notationDecl(name,publicId,153); font-weight:bold; background-color:inherit">voidunparsedEntityDecl(Stringname,
  33. StringsystemId,StringnotationName)super.unparsedEntityDecl(name,systemId,notationName);
  34. voidsetDocumentLocator(Locatorlocator){
  35. super.setDocumentLocator(locator);
  36. @Override
  37. voidstartDocument() System.err.println("开始解析文档");
  38. voidendDocument()throwsSAXException{
  39. System.err.println("解析结束");
  40. voidstartPrefixMapping(Stringprefix,Stringuri)
  41. super.startPrefixMapping(prefix,uri);
  42. voidendPrefixMapping(Stringprefix)super.endPrefixMapping(prefix);
  43. voidstartElement(Stringuri,StringlocalName,StringqName,248)"> Attributesattributes) System.err.print("Element:"+qName+",attr:");
  44. print(attributes);
  45. voidendElement(Stringuri,StringqName)
  46. super.endElement(uri,localName,qName);
  47. voidcharacters(char[]ch,intstart,153); font-weight:bold; background-color:inherit">intlength)
  48. super.characters(ch,start,length);
  49. voidignorableWhitespace(super.ignorableWhitespace(ch,153); font-weight:bold; background-color:inherit">voidprocessingInstruction(Stringtarget,Stringdata)
  50. super.processingInstruction(target,data);
  51. voidskippedEntity(Stringname)super.skippedEntity(name);
  52. voidwarning(SAXParseExceptione)super.warning(e);
  53. voiderror(SAXParseExceptione)super.error(e);
  54. voidfatalError(SAXParseExceptione)super.fatalError(e);
  55. privatevoidprint(Attributesattrs){
  56. if(attrs== System.err.print("[");
  57. 0;i<attrs.getLength();i++){
  58. System.err.print(attrs.getQName(i)+"="+attrs.getValue(i));
  59. if(i!=attrs.getLength()-1){
  60. System.err.print(",");
  61. System.err.println("]");
  62. 3、【JDOM】
    JDOM与DOM非常类似,它是处理XML的纯JAVA API,API大量使用了Collections类,且JDOM仅使用具体类而不使用接口。 JDOM 它自身不包含解析器。它通常使用 SAX2 解析器来解析和验证输入 XML 文档(尽管它还可以将以前构造的 DOM 表示作为输入)。它包含一些转换器以将 JDOM 表示输出成 SAX2 事件流、DOM 模型或 XML 文本文档
    copy
    importjava.io.FileOutputStream;
  1. importjava.util.List;
  2. importorg.jdom.Attribute;
  3. importorg.jdom.Document;
  4. importorg.jdom.Element;
  5. importorg.jdom.JDOMException;
  6. importorg.jdom.input.SAXBuilder;
  7. importorg.jdom.output.XMLOutputter;
  8. *JDom读写xml
  9. classTestJDom{
  10. //read();
  11. booleanvalidate=false;
  12. SAXBuilderbuilder=newSAXBuilder(validate);
  13. InputStreamin=TestJDom. Documentdoc=builder.build(in);
  14. //获取根节点<university>
  15. Elementroot=doc.getRootElement();
  16. readNode(root,"");
  17. }catch(JDOMExceptione){
  18. e.printStackTrace();
  19. catch(IOExceptione){
  20. @SuppressWarnings("unchecked")
  21. voidreadNode(Elementroot,Stringprefix){
  22. //获取属性
  23. List<Attribute>attrs=root.getAttributes();
  24. if(attrs!=null&&attrs.size()>0){
  25. System.err.print(prefix);
  26. for(Attributeattr:attrs){
  27. System.err.print(attr.getValue()+"");
  28. System.err.println();
  29. //获取他的子节点
  30. List<Element>childNodes=root.getChildren();
  31. prefix+="\t";
  32. for(Elemente:childNodes){
  33. readNode(e,prefix);
  34. false;
  35. //修改属性
  36. root.setAttribute("name","tsu");
  37. //删除
  38. booleanisRemoved=root.removeChildren("college");
  39. System.err.println(isRemoved);
  40. //新增
  41. ElementnewCollege=newElement("college");
  42. newCollege.setAttribute("name","new_college");
  43. ElementnewClass=newElement("class");
  44. newClass.setAttribute("name","ccccc");
  45. newCollege.addContent(newClass);
  46. root.addContent(newCollege);
  47. XMLOutputterout=newXMLOutputter();
  48. newFile("src/jdom-modify.xml");
  49. FileOutputStreamfos= out.output(doc,fos);
  50. catch(JDOMExceptione){
  51. }
4、【DOM4j】
dom4j是目前在xml解析方面是最优秀的(Hibernate、Sun的JAXM也都使用dom4j来解析XML),它合并了许多超出基本 XML 文档表示的功能,包括集成的 XPath 支持、XML Schema 支持以及用于大文档或流化文档的基于事件的处理
copy
    importjava.io.FileWriter;
  1. importorg.dom4j.Attribute;
  2. importorg.dom4j.Document;
  3. importorg.dom4j.DocumentException;
  4. importorg.dom4j.DocumentHelper;
  5. importorg.dom4j.Element;
  6. importorg.dom4j.ProcessingInstruction;
  7. importorg.dom4j.VisitorSupport;
  8. importorg.dom4j.io.SAXReader;
  9. importorg.dom4j.io.XMLWriter;
  10. *Dom4j读写xml
  11. classTestDom4j{
  12. read1();
  13. //read2();
  14. //write();
  15. voidread1(){
  16. SAXReaderreader=newSAXReader();
  17. InputStreamin=TestDom4j. Documentdoc=reader.read(in);
  18. catch(DocumentExceptione){
  19. List<Attribute>attrs=root.attributes();
  20. List<Element>childNodes=root.elements();
  21. voidread2(){
  22. doc.accept(newMyVistor());
  23. catch(DocumentExceptione){
  24. //创建一个xml文档
  25. Documentdoc=DocumentHelper.createDocument();
  26. Elementuniversity=doc.addElement("university");
  27. university.addAttribute("name",0); background-color:inherit">//注释
  28. university.addComment("这个是根节点");
  29. Elementcollege=university.addElement("college");
  30. college.addAttribute("name","cccccc");
  31. college.setText("text");
  32. newFile("src/dom4j-modify.xml");
  33. XMLWriterout=newXMLWriter(newFileWriter(file));
  34. out.write(doc);
  35. out.flush();
  36. out.close();
  37. classMyVistorextendsVisitorSupport{
  38. voidvisit(Attributenode){
  39. System.out.println("Attibute:"+node.getName()+"="
  40. +node.getValue());
  41. voidvisit(Elementnode){
  42. if(node.isTextOnly()){
  43. System.out.println("Element:"+node.getName()+"="
  44. +node.getText());
  45. else{
  46. System.out.println(node.getName());
  47. voidvisit(ProcessingInstructionnode){
  48. System.out.println("PI:"+node.getTarget()+""+node.getText());
  49. }

三、【性能测试】

环境:AMD4400+ 2.0+GHz主频 JDK6.0
运行参数:-Xms400m -Xmx400m
xml文件大小:10.7M
结果:
DOM: >581297ms
SAX: 8829ms
JDOM: 581297ms
DOM4j: 5309ms
时间包括IO的,只是进行了简单的测试, 仅供参考 !!!!
四、【对比】 1、【DOM】
DOM是基于树的结构,通常需要加载整文档和构造DOM树,然后才能开始工作。
优点:
a、由于整棵树在内存中,因此可以对xml文档随机访问
b、可以对xml文档进行修改操作
c、较sax,dom使用也更简单。
缺点:
a、整个文档必须一次性解析完
a、由于整个文档都需要载入内存,对于大文档成本高
2、【SAX】
SAX类似流媒体,它基于事件驱动的,因此无需将整个文档载入内存,使用者只需要监听自己感兴趣的事件即可。
a、无需将整个xml文档载入内存,因此消耗内存少
b、可以注册多个ContentHandler
a、不能随机的访问xml中的节点
b、不能修改文档
JDOM是纯Java的处理XML的API,其API中大量使用Collections类,
a、DOM方式的优点
b、具有SAX的Java规则
缺点
a、DOM方式的缺点
4、【DOM4J】
这4中xml解析方式中,最优秀的一个,集易用和性能于一身。
五、【小插曲XPath】 XPath 是一门在 XML 文档中查找信息的语言, 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 同时被构建于 XPath 表达之上。因此,对 XPath 的理解是很多高级 XML 应用的基础。
XPath非常类似对数据库操作的SQL语言,或者说JQuery,它可以方便开发者抓起文档中需要的东西。(dom4j也支持xpath)
copy
    importjavax.xml.parsers.DocumentBuilder;
  1. importjavax.xml.parsers.DocumentBuilderFactory;
  2. importjavax.xml.xpath.XPath;
  3. importjavax.xml.xpath.XPathConstants;
  4. importjavax.xml.xpath.XPathExpression;
  5. importjavax.xml.xpath.XPathExpressionException;
  6. importjavax.xml.xpath.XPathFactory;
  7. classTestXPath{
  8. InputStreamin=TestXPath. XPathFactoryfactory=XPathFactory.newInstance();
  9. XPathxpath=factory.newXPath();
  10. //选取所有class元素的name属性
  11. //XPath语法介绍:http://w3school.com.cn/xpath/
  12. XPathExpressionexpr=xpath.compile("//class/@name");
  13. NodeListnodes=(NodeList)expr.evaluate(doc,XPathConstants.NODESET);
  14. 0;i<nodes.getLength();i++){
  15. System.out.println("name="+nodes.item(i).getNodeValue());
  16. catch(XPathExpressionExceptione){
  17. }

六、【补充】

注意4种解析方法对TextNode(文本节点)的处理:

1、在使用DOM时,调用node.getChildNodes()获取该节点的子节点,文本节点也会被当作一个Node来返回,如:

copy
    >
copy
    importjava.io.FileNotFoundException;
  1. importjava.util.Arrays;
  2. importorg.w3c.dom.Document;
  3. importorg.w3c.dom.Element;
  4. importorg.w3c.dom.Node;
  5. importorg.w3c.dom.NodeList;
  6. classTestDom2{
  7. InputStreamin=TestDom2.//System.err.println(root.getAttribute("name"));
  8. //allcollegenode
  9. System.err.println("university子节点数:"+collegeNodes.getLength());
  10. System.err.println("子节点如下:");
  11. 0;i<collegeNodes.getLength();i++){
  12. Nodecollege=collegeNodes.item(i);
  13. if(college== System.err.println("\t元素节点:"+college.getNodeName());
  14. if(college.getNodeType()==Node.TEXT_NODE){
  15. System.err.println("\t文本节点:"+Arrays.toString(college.getTextContent().getBytes()));
  16. 输出的结果是:

    copy
      university子节点数:3
    1. 子节点如下:
    2. 文本节点:[10,9]
    3. 元素节点:college
    4. 10]

    其中\n的ASCII码为10,\t的ASCII码为9。结果让人大吃一惊,university的子节点数不是1,也不是2,而是3,这3个子节点都是谁呢?为了看得更清楚点,把xml文档改为:

    copy

      >11
    1. >22
    2. 还是上面的程序,输出结果为:

      copy

        49,0); background-color:inherit">50,0); background-color:inherit">10]
      其中数字1的ASCII码为49,数字2的ASCII码为50。

      2、使用SAX来解析同DOM,当你重写它的public void characters(char[] ch,int start,int length)方法时,你就能看到。

      3、JDOM,调用node.getChildren()只返回子节点,不包括TextNode节点(不管该节点是否有Text信息)。如果要获取该节点的Text信息,可以调用node.getText()方法,该方法返回节点的Text信息,也包括\n\t等特殊字符。

      4、DOM4j同JDOM

      参考:

      http://www.docin.com/p-78963650.html

      http://wenku.baidu.com/view/b091f9360b4c2e3f5727638b.html

      http://kree.iteye.com/blog/668280

      相关文章

      php输出xml格式字符串
      J2ME Mobile 3D入门教程系列文章之一
      XML轻松学习手册
      XML入门的常见问题(一)
      XML入门的常见问题(三)
      XML轻松学习手册(2)XML概念