Java相当于PHP Simple HTML DOM Parser

问题描述

| 由于我必须使用无法在PHP中雄辩地解决的多线程,所以我想使用Java进行编程,不幸的是,我找不到一个像PHP Simple HTML DOM Parser一样健壮,快速且容易地解析HTML DOM的库。 。您是否知道Java中易于使用的替代方法?     

解决方法

        我从简单HTML DOM解析器转到JSoup,对此我感到非常满意。     ,        我可以看到我们面临两个挑战: 可能不是格式正确的XHTML的HTML解析,可以简化任何内容,并且解析起来很不错。我建议使用TagSoup库,该库可以读取丑陋的HTML并生成格式正确的StaX流,然后可将其用于其他地方。 构建HTML文档的DOM表示并进行处理。您可能在JDK中知道XML DOM(
org.w3c.dom.*
)已全面实现。但是我想这不是您一直在寻找的API类型。可以包装JDK文档并且可以享受易于使用的API的DOM4J或更旧的JDOM呢?     ,        我已经成功地使用TagSoup作为SAX解析器来填充DOM4J文档,然后使用XPath进行查询。我花了一些时间来解决咒语-(Scala,但我确定您可以转换):
parserFactory = new org.ccil.cowan.tagsoup.jaxp.SAXFactoryImpl
val reader = new SAXReader(parserFactory.newSAXParser.getXMLReader)
val doc = reader.read(new InputSource(new StringReader(page)))
    

相关问答

错误1:Request method ‘DELETE‘ not supported 错误还原:...
错误1:启动docker镜像时报错:Error response from daemon:...
错误1:private field ‘xxx‘ is never assigned 按Alt...
报错如下,通过源不能下载,最后警告pip需升级版本 Requirem...