正则匹配HTML标签

2022-07-09 08:50:44

刚刚写的一个匹配HTML标签，性能方面有待研究。

document.body.innerHTML.match(/<a[^>]*?>[^>]*?<\/a>/gim)
//将A标签换成其它的就可以了。
//下一步考虑提取相关属性。

document.body.innerHTML.match(/<a[^>]*?href=\"(.*?)\"[^>]*?>[^>]*?<\/a>/gim)

不过需要注意的是，JS中的match在用g标识符的情况下，结果会有些不一样（摘自W3C）

说明

match() 方法将检索字符串 stringObject，以找到一个或多个与 regexp 匹配的文本。这个方法的行为在很大程度上有赖于 regexp 是否具有标志 g。

如果 regexp 没有标志 g，那么 match() 方法就只能在 stringObject 中执行一次匹配。如果没有找到任何匹配的文本， match() 将返回 null。否则，它将返回一个数组，其中存放了与它找到的匹配文本有关的信息。该数组的第 0 个元素存放的是匹配文本，而其余的元素存放的是与正则表达式的子表达式匹配的文本。除了这些常规的数组元素之外，返回的数组还含有两个对象属性。index 属性声明的是匹配文本的起始字符在 stringObject 中的位置，input 属性声明的是对 stringObject 的引用。

如果 regexp 具有标志 g，则 match() 方法将执行全局检索，找到 stringObject 中的所有匹配子字符串。若没有找到任何匹配的子串，则返回 null。如果找到了一个或多个匹配子串，则返回一个数组。不过全局匹配返回的数组的内容与前者大不相同，它的数组元素中存放的是 stringObject 中所有的匹配子串，而且也没有 index 属性或 input 属性。

正则匹配HTML标签,布布扣,bubuko.com

正则匹配HTML标签

码农公寓

说明

相关文章