用JDom轻松整合Java和XML

2016-02-19 13:43 10 1 收藏

今天图老师小编要跟大家分享用JDom轻松整合Java和XML,精心挑选的过程简单易学,喜欢的朋友一起来学习吧!

【 tulaoshi.com - 编程语言 】

概述:
  
  Jdom是用Java语言读、写、操作XML的新API函数。Jason Hunter 和 Brett McLaughlin公开发布了它的测试版本。在直觉、简单和高效的前提下,这些API函数被最大限度的优化。 !-- frame contents -- !-- /frame contents -- 在接下来的篇幅里,Hunter 和 McLaughlin介绍怎么用Jdom去读写一个已经存在的XML文档。
  
  Jdom是一个开源的api,它以直接易懂的方式向java程序员描述XML文档和文档的内容。就象名字揭示的那样,Jdom是为java优化的。为使用XML文档提供一个低消耗的方法。Jdom的使用者可以不必把握太多的XML的知识就可以完成想要的操作。
  
  Jdom可以和已有的XML技术如Simple API for XML (SAX)和 Document Object Model (DOM)相互协作.然而,它并不是简单的从这些api中提取出一些。Jdom从这些已存在的技术中吸收了好的方面,自己建立了一套新的类和接口,用一个Jdom用户的话来说就是:“这些接口是我从一开始阅读org.w3c.dom就期待的”;Jdom可以读入SAX或是DOM的内容,也可以输出SAX或DOM可以接收的格式。这个能力可以使Jdom很好的和已有的用SAX或DOM建立的系统之间整合。
  
  Jdom的原则
  
  第一条并且是最重要的一条就是Jdom的api函数被设计成对java程序员来说是简单易懂的。其他的XML解析函数被设计成语言通用的(支持相同的api函数在java,c++,甚至是javascript中)。Jdom利用了java的优秀的特征,如:方法重载、回收机制,和后台处理等。
  
  为了能够简单易用,这些函数不得不以程序员喜欢的形式来描绘XML文档。例如:程序员想的到的一个元素的文本内容是什么样子的呢?
  
  <element>This is my text content</element>
  在一些api中,元素的文本内容仅被当作是一个元素的孩子节点。从技术角度来说,这个设计需要下面的代码才能访问到元素的内容:
  
  String content = element.getFirstChild().getValue();
  Jdom用一种更简单易用的方法来取得元素的内容:
  
  String text = element.getText();
  Jdom尽可能的减少程序员的工作量。依据拇指规则,Jdom应该用20%或是更少的努力来完成80%或是更多的java/xml方面的问题。这并不是说Jdom只是支持80%的XML规范(实际上我们希望Jdom100%的支持XML规范)。这个拇指规则是说有些东西可以加进去,但是没有必要。这些api函数应该保持简洁。
  
  Jdom的第二条原则是说Jdom应该是快速的和轻量级的。调入和执行文档应该快速,内存的消耗应该尽量小。Jdom的设计明显是遵循这个原则。例如,就算在开始的时候,不太协调的操作已经比DOM快,但是比SAX显的粗糙。尽管这样,Jdom还是有许多SAX没有的优点。 你需要Jdom吗?
  
  那么,你需要Jdom吗?这真是一个很好的问题。已经有了存在的标准,为什么还要去发明一个新的呢?答案是Jdom解决了现有的标准解决不了的问题。
  
   !-- frame contents -- !-- /frame contents --   DOM完全在内存中描述一个元素树。它是一个大的api,被设计操作几乎所有可能的XML任务。它也必须有相同的api去支持不同的语言。因为这些限制,对那些习惯使用java的特征,如方法重载、简单的set,get方法的java程序员来说,就很不习惯。DOM还需要大量的内存和较高的主频,这使它很难和许多轻量级的web应用一起工作。
  
  SAX没有在内存中建立一个元素树,它用事情发展的方式来描述。例如:它报告每个读到的开始标记和结束标记。这种处理方式使它成为一个轻量级的快速读取的api。然而,这种事件处理方式对服务器端的java程序员来说不够直观。SAX也不支持修改XML文档和随机读取。
  
  Jdom试图组合DOM和SAX的优点。它被设计成一个可以在小内存上快速执行轻量级api 。Jdom也支持随机读取整个文档,但是令人惊异的是它并不需要把整个文档读到内存中。这个api支持未来的当需要时才读入信息的次轻量级操作。还有,Jdom通过标准的构造器和set方法支持XML文档的修改。
  
  获取XML文档
  
  Jdom用org.Jdom.Document类的一个实例来描述一个XML文档。这个文档类是一个轻重量级的,它可以包括文档类型、多处理指令的对象、一个根元素和注释对象。你可以不需要构造器而从草稿构造一个文档。
  
  Document doc = new Document(new Element("rootElement"));
  本文后面我们会讨论从草稿构造一个XML文档是多么的轻易。但是现在,我们从一个已存在的文件、一个流、或是一个URL路径中构造我们的文档。
  
  SAXBuilder builder = new SAXBuilder();
  Document doc = builder.build(url);
  你可以用org.Jdom.input包中提供的构造类从任何数据源中构造文档。最近,有两种构造方式:SAXBuilder 和 DOMBuilder。SAXBuilder用sax解析器从文件中构造文档。SAXBuilder侦听sax事件并从内存中建立一个相应的文档。这种方式非常快(基本上和sax一样快),这也是我们推荐的方式。DOMBuilder是另一种可选的方式,它从一个存在的org.w3c.dom.Document对象中建立Jdom文档。它答应Jdom轻松的和构建DOM树的工具实现接口。
  
  Jdom的速度有值得期待的提高的潜力通过一个延期的构造器的完成。这个构造器检查XML数据源,但当请求的时候才对它解析。例如:文档的属性当不访问时是不需要解析的。
  
  构造器仍在发展,可以通sql查询、ldap查询和其他的数据格式来够造Jdom文档。所以,一旦进到内存中,文档就和建造它的工具没有关系了。
  
  SAXBuilder 和 DOMBuilder构造器答应用户指明他们是否应该轮换,以便确定哪个解析器时间执行解析的任务。
  
  public SAXBuilder(String parserClass, boolean validation);
  public DOMBuilder(String adapterClass, boolean validation);
  默认的是用apache的开源 Xerces解析器并且是关闭轮换的。你应该注到DOMBuilder不象一个解析类,倒更象一个适配类。这是因为不是所有的DOM解析器都是相同的api。为了仍让用户选择喜欢的解析器,Jdom使用一个对所有的dom解析器适用的公共的api的适配类。这个适配类支持所有流行的dom解析器,包括Apache 的 Xerces, Crimson,IBM 的 XML4J, Sun 的 Project X, 和Oracle 的 parsers V1 and V2.每一个解析器通过正确的调用别的解析器的方法执行标准的接口。这有点象jaXP,除了它支持jaxp所不支持的新的解析器。 输出XML文档
  
  你可以用几种不同的标准输出工具输出一个XML文档。org.Jdom.output.XMLOutputter也许是最常用方法。它将xml文档写入一个特定的OutputStream.
  
  SAXOutputter工具是另一个选择。它产生基于Jdom xml文档的sax事件,你可以把这些送到等待这些sax事件的应用程序那里。相同的方式,DOMOutputter产生一个dom文档,这样你就可以把它送给可以接收dom文档的应用程序。输出xml文档的代码看起来象下边的样子:
  
  XMLOutputter outputter = new XMLOutputter();
  outputter.output(doc, System.out);
  XMLOutputter用参数定制输出的格式。第一个参数是行缩进的格式;第二个参数是你是否想另起一行。因为机器到机器的原因,为了速度考虑你可以放弃行缩进和另起新行。
  
  XMLOutputter outputter = new XMLOutputter("", false);
  outputter.output(doc, System.out);
  (译注:这样的话自己看起来会很不好看,而且每一次重新写入的时候都会使这个xml文件变大,所以我建议还是要缩进和另起一行,支持中文的带换行和缩进的格式如下:
  
  XMLOutputter outp = new XMLOutputter(“”,true,"GB2312");
  
  outp.setTextTrim(true);
  
  outp.output(doc, System.out);
  可以参见以前我写的Jdom的文章http://www.csdn.net/Develop/read_article.ASP?id=20720)
  
  下面是读入一个xml文档,并把它又输出的例子:
  
  import java.io.*;
  import org.Jdom.*;
  import org.Jdom.input.*;
  import org.Jdom.output.*;
  public class PrettyPrinter {
  public static void main(String[] args) {
   // Assume filename argument
   String filename = args[0];
   try {
  // Build the document with SAX and Xerces, no validation
  SAXBuilder builder = new SAXBuilder();
  // Create the document
  Document doc = builder.build(new File(filename));
  // Output the document, use standard formatter
  XMLOutputter fmt = new XMLOutputter();
  fmt.output(doc, System.out);
   } catch (Exception e) {
  e.printStackTrace();
   }
  }
  }
  读取文档类型
  
  现在,让我们来看一下怎么读取文档的具体内容。许多XML文档都有的一个东西是文档类型,在Jdom中用DocType类来描述。万一你不是XML方面的专家(嘿,不用灰心,你就是我们所要面向的听众),一个文档类型的声明看起来象下边的样子:
  
  <!DOCTYPE Html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN"
  "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
  DOCTYPE后边的第一个词揭示文档被强制类型的名字,PUBLIC后边的词是文档类型的公共属性,最后一个词是文档类型的系统属性。文档属性可以上通过文档的getDocType()方法获得,DocType类提供了一组获得文档类型声明的方法。
  
  DocType docType = doc.getDocType();
  System.out.println("Element: " + docType.getElementName());
  System.out.println("Public ID: " + docType.getPublicID());
  System.out.println("System ID: " + docType.getSystemID()); 读取文档数据
  
  每一个XML文档必须有一个根元素。这个元素是访问所有XML文档内部信息的起始点。例如:这个文档片段用<web-app>作为根元素:
  
  <web-app id="demo">
   <description>Gotta fit servlets in somewhere!</description>
   <distributable/>
  </web-app>
  根元素的实例可以在文档中直接获得。
  
  Element webapp = doc.getRootElement();
  这样,你就可以访问这个元素的属性(如上边的id)内容和子节点元素。
  
  访问子节点
  
  XML文档是树型结构的,任何一个元素都有可能包含任何数量的子元素。例如:<web-app>元素有<description>和 <distributable>作为子节点元素。你可以通过很多方法获得一个元素的子元素,getChild()假如没有子元素的话返回NULL。
  
  List getChildren(); // return all children
  List getChildren(String name); // return all children by name
  Element getChild(String name); // return first child by name
  示例:
  
  // Get a List of all direct children as Element objects
  List allChildren = element.getChildren();
  out.println("First kid: " + ((Element)allChildren.get(0)).getName());
  // Get a list of all direct children with a given name
  List namedChildren = element.getChildren("name");
  // Get a list of the first kid with a given name
  Element kid = element.getChild("name");
  当文档结构事先知道的情况下,getchild()方法很轻易快速的获得嵌套的元素。给出一个XML文档:
  
  <?xml version="1.0"?>
   <Linux:config>
  <gui>
   <window-manager>
  <name>Enlightenment</name>
  <version>0.16.2</version>
   </window-manager>
   <!-- etc -->
  </gui>
   </linux:config>
  下边的代码直接获得window manager 的名字
  
  String windowManager = rootElement.getChild("gui")
  .getChild("window-manager")
  .getChild("name")
  .getText();
  假如文档不可用要小心NullPointerExceptions异常。为了实现简单的文档导航,未来的Jdom可能会支持xpath。子节点可以通过getParent()获得父节点。
  
  获取文档属性
  
  属性是元素拥有的另一组信息。html程序员对他是很熟悉的。下边的<table>元素有width和border属性。
  
  <table width="100%" border="0"> </table>
  这些属性可以在元素中直接获得。
  
  String width = table.getAttributeValue("width");
  你也可以用属性实例来重新获得这些属性。这个能力帮助Jdom支持一些高级概念,例如名字空间中的属性。(参考文章后边关于名字空间的内容)
  
  Attribute widthAttrib = table.getAttribute("width");
  String width = widthAttrib.getValue();
  为了方便你还可以获得这些属性的原始数据类型。
  
  int width = table.getAttribute("border").getIntValue();
  你可以转化这些数据到任何的原始数据类型。假如这些属性不能转换成原始数据类型就抛出一个DataConversionException异常。假如属性不存在getAttribute()返回一个null;
  
  提取文档内容
  
  我们为用简单的方法获得文档内容而激动,下边我们看一下用element.getText()方法提取文档的文本内容是多么轻易。这个是标准方法,适用于象下边这样的文档:
  
  <name>Enlightenment</name>
  但是有些时候这些文档包含注释,文本内容和子元素。在一些高级的文档中,它甚至包含一些处理指令:
  
  <table>
   <!-- Some comment -->
   Some text
   <tr>Some child</tr>
   <?pi Some processing instrUCtion?>
  </table>
  你可以总是通过下边的方式获得文本内容和子节点:
  
  String text = table.getText(); // "Some text"
  Element tr = table.getChild("tr"); // <tr> child
  这使得标准使用很简单。有些时候例如输出,获得一个文档所有内容的顺序是很重要的。为了这个原因,你可以使用一个非凡的方法叫getMixedContent()。它返回一个list内容可能包含注释,字符串,元素和处理指令的实例。Java程序员可以使用instanceof 来获得内容。下边的代码打印一个文档内容的摘要:
  
  List mixedContent = table.getMixedContent();
  Iterator i = mixedContent.iterator();
  while (i.hasNext()) {
   Object o = i.next();
   if (o instanceof Comment) {
  // Comment has a toString()
  out.println("Comment: " + o);
   }
   else if (o instanceof String) {
  out.println("String: " + o);
   }
   else if (o instanceof ProcessingInstruction) {
  out.println("PI: " + ((ProcessingInstriction)o).getTarget());
   }
   else if (o instanceof Element) {
  out.println("Element: " + ((Element)o).getName());
   }
  }

来源:https://www.tulaoshi.com/n/20160219/1605037.html

延伸阅读
标签: PHP
用 PHP 读取和编写可扩展标记语言(XML)看起来可能有点恐怖。实际上,XML 和它的所有相关技术可能是恐怖的,但是用 PHP 读取和编写 XML 不一定是项恐怖的任务。首先,需要学习一点关于 XML 的知识 它是什么,用它做什么。然后,需要学习如何用 PHP 读取和编写 XML,而有许多种方式可以做这件事。 本文提供了 XML 的简短入...
标签: PHP
请先安装JAVA的执行环境与PHP结合,具体参考http://www.phpx.com/happy/thr78795.html  或者下载http://www.javax.org/download/php_java.rar  里面我写有个readme.txt说明文档,这个压缩包是个简单的例子。  要下载我的JAVA源码请到http://www.javax.org/download/JavaXml.rar  有其他问题请到http://ww...
标签: PHP
第二章 XML概念 导言 经过第一章的快速入门学习,你已经知道了XML是一种能够让你自己创造标识的语言,它可以将数据与格式从网页中分开,它可以储存数据和共享数据的特性使得XML无所不能。如果你希望深入学习XML,系统掌握XML的来龙去脉,那么我们首先还是要回到XML概念的问题上来。XML(Extensible Markup Language),一种扩展...
标签: Java JAVA基础
  一、JDOM 介绍 我们知道DOM是用于与平台和语言无关的方式表示XML文档的官方W3C标准,利用DOM和SAX API可以解析和处理XML文档。这里我们介绍的JDOM是基于树操作的纯JAVA API,应该说它提供的是一套用于解析、创建、处理和实现XML的解决方案。这些API比DOM和SAX API提供的方法更为直观,对于有JAVA经验的程序员将会发现JDOM非常容...
标签: Web开发
作者:马晓宁 xml(可扩展标记语言)看起来可能像某种w3c标准——现在没有什么实际影响,即使以后能派上用场,也是很久以后的事。但实际上,它现在已经得到了应用。所以,不要等到xml已被加进了你最喜爱的html编辑器中才开始使用它。它现在就可以解决各种内部问题和b2b系统问题。 在sparks.com,我们使用xml来标准化从java...

经验教程

20

收藏

55
微博分享 QQ分享 QQ空间 手机页面 收藏网站 回到头部