带有 <tag_name> 的字符串替换为空

问题描述

我只是想在没有 HTML 部分的情况下替换以下文本

designed to display special types of text:&lt;b&gt;- Bold text&lt;strong&gt;&nbsp;- Important text&lt;i&gt;&nbsp;- Italic text&lt;em&gt;&nbsp;- Emphasized text&lt;mark&gt;&nbsp;- 

使用此正则表达式将 &lt;&gt;间的所有内容替换为空

html = html.replace("/(&lt;\/*\w+?&gt;)/g",'');

但我的正则表达式似乎不起作用,如何获得准确的?

解决方法

如果您不打算使用组,则无需使用 __version__ 分组。一个相对简单的正则表达式就足够了:

  • 匹配()
  • 匹配任意数量的字符,non-greedy &lt;
  • 匹配.*?
  • 适用于所有&gt;
  • 替换为 g

''

警告 请注意,使用正则表达式解析 HTML 并不可靠。它可能适用于您的场景,但非常很容易打破/提供一个不起作用的字符串。

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...