在 Java 中解析各种自定义 XML 文档的最佳方法

Best method to parse various custom XML documents in Java

用 Java 解析多个离散的自定义 XML 文档的最佳方法是什么？

我会使用 Stax 来解析 XML，它既快速又易于使用。我在上一个项目中使用它来解析最大 24MB 的 XML 文件。 java.net 上有一个很好的介绍，它告诉您入门所需的一切。

基本上，Java 中有两种主要的 XML 解析方法：

SAX，您使用处理程序仅在 XML 中获取您想要的内容并放弃其余部分
DOM，它一直解析您的文件，并允许您以更像树的方式抓取所有元素。

StAX 是另一种非常有用的 XML 解析方法，尽管比这些方法更新一些，并且仅在 Java6 之后才包含在 JRE 中。 StAX 被认为是介于基于树的 DOM 和基于事件的 SAX 方法之间的一种中间方法。它与 SAX 非常相似，因为解析非常大的文档很容易，但在这种情况下，应用程序从解析器"拉"信息，而不是解析"推送"事件到应用程序。您可以在此处找到有关此主题的更多说明。

因此，根据您想要实现的目标，您可以使用其中一种方法。

使用 dom4j 库

先阅读文档

1
2
3
4
5
6
7
8
9
10
11
12
13
14

import java.net.URL;

import org.dom4j.Document;
import org.dom4j.DocumentException;
import org.dom4j.io.SAXReader;

public class Foo {

public Document parse(URL url) throws DocumentException {
SAXReader reader = new SAXReader();
Document document = reader.read(url);
return document;
}
}

然后使用 XPATH 获取你需要的值

1
2
3
4
5

public void get_author(Document document) {
Node node = document.selectSingleNode("//AppealRequestProcessRequest/author" );
String author = node.getText();
return author;
}

您将希望使用 org.xml.sax.XMLReader (http://docs.oracle.com/javase/7/docs/api/org/xml/sax/XMLReader.html)。

如果您只需要解析，那么我建议您使用 XPath 库。这是一个很好的参考：http://www.ibm.com/developerworks/library/x-javaxpathapi.html

但是您可能需要考虑将 XML 转换为对象，然后天空才是极限。
为此，您可以使用 XStream，这是一个很棒的库，我经常使用它

下面是使用 vtd-xml 提取一些值的代码。

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

import com.ximpleware.*;

public class extractValue{
public static void main(String s[]) throws VTDException, IOException{
VTDGen vg = new VTDGen();
if (!vg.parseFile("input.xml", false));
VTDNav vn = vg.getNav();
AutoPilot ap = new AutoPilot(vn);
ap.selectXPath("/aa/bb[name='k1']/value");
int i=0;
while ((i=ap.evalXPath())!=-1){
System.out.println(" value ==="+vn.toString(i));
}
}
}