java – Jsoup clean方法离开 分子

我正在尝试使用此代码完全从 HTML元素中清除我的文本:
Jsoup.clean(preparedText,Whitelist.none())

不幸的是它没有删除& nbsp;元素.我认为它将用空格替换它,就像它取代& middot一样;带有中间点(“·”).

我应该使用其他方法来实现此功能吗?

解决方法

Jsoup docs

Whitelists define what HTML (elements and attributes) to allow through
the cleaner. Everything else is removed.

因此白名单只关注标签属性. &安培; NBSP;既不是标签也不是属性.它只是一个特殊字符的html编码.如果您想从编码转换为普通文本,您可以使用例如优秀的apache commons lang library或使用Jsoup unescapeEntities method

System.out.println(Parser.unescapeEntities(doc.toString(),false));

附录:

来自& middot的翻译;在解析html时已经发生了“·”.它似乎与清洁方法无关.

相关文章

最近看了一下学习资料,感觉进制转换其实还是挺有意思的,尤...
/*HashSet 基本操作 * --set:元素是无序的,存入和取出顺序不...
/*list 基本操作 * * List a=new List(); * 增 * a.add(inde...
/* * 内部类 * */ 1 class OutClass{ 2 //定义外部类的成员变...
集合的操作Iterator、Collection、Set和HashSet关系Iterator...
接口中常量的修饰关键字:public,static,final(常量)函数...