正则表达式 – HTML代码中的匹配属性

参见英文答案 > How do you parse and process HTML/XML in PHP?29个
我在使用正则表达式匹配html属性(在各种html标签中)时遇到问题.为此,我使用模式:
myAttr=\"([^']*)\"

HTML片段:

<img alt="" src="1-p2.jpg" myAttr="http://example.com" class="alignleft" />

它从myAttr中选择文本结束/>但我需要选择myAttr =“…”(“http://example.com”)

你的角色类中有一个撇号(‘),但你想要一个引号(“).
myAttr=\"([^"]*)\"

那就是说,你真的是shouldn’t be parsing HTML with regexes.(很抱歉再次链接到那个答案.对于那个问题还有其他答案,更多的是“如果你知道你在做什么……”变种.但是要注意这一点很好.)

请注意,即使您将regexing限制为仅属性,您还需要考虑很多因素:

>注意不要在评论内部匹配.
>小心不要匹配CDATA部分内部.
>如果属性用单引号而不是双引号括起来怎么办?
>如果属性没有引号怎么办?

这就是为什么通常需要预先构建的,严肃的解析器的原因.

相关文章

正则替换html代码中img标签的src值在开发富文本信息在移动端...
正则表达式
AWK是一种处理文本文件的语言,是一个强大的文件分析工具。它...
正则表达式是特殊的字符序列,利用事先定义好的特定字符以及...
Python界一名小学生,热心分享编程学习。
收集整理每周优质开发者内容,包括、、等方面。每周五定期发...