正则表达式的学习

最近写了一个匹配以什么什么开头,以什么什么结尾的,且字符串长度不超过多少的正则

pattern = re.compile(r’肌酐[\w|:|/|↑|.| |(|)|:|\u4e00-\u9fa5]{,20}L’) #/&;/g [\u4e00-\u9fa5]

(此处为以肌酐开头,以L结尾的匹配)

p.append(pattern)

在学习时,注意到了/g这个用法,能让match函数返回多个值,然后是\.来匹配点

还有没有非某个范围的说法,比如企图用/|\u4e00-\u9fa5]来匹配不是中文的一切东西是不行的

然后是group的用法,这就是个分组

如果正则里面有小括号部分,括起来的就是分组,第一个是分组1,第二个是分组2

例子

import re
pattern = re.compile(‘(\d+).(\d)?’)
s=’肌酐(Cr): 456,187.0μmol/L546.555′
searchObj = re.search(pattern, s, flags=0)
print(searchObj.group(1))

只能匹配某个范围,没有非

了解到 ?* 和 {,20} 从某种程度来说,很像,?*只是一个没有确定值的范围,尽可能少

了解到断言?:

首先,正则表达式的”非”,代表不想匹配某个字符。

比如字符串 helloword123,/[^0-9]+/g 可以匹配非数字,即匹配结果为 helloword;

同样的,/[^he]+/g 可以匹配非h非e的字符,匹配结果为lloword123;

那么 /[^hello]/g 呢?乍一看可能会以为能匹配word123,其实不然,[^] 内的多个字符是”或”的关系存在的,即它们并不是一个整体,/[^hello]/g 表示 非h非e非l非o,并不能理解为 非(hello),所以匹配结果是 w 和 rd123。

道理我们都懂,可我们就是想匹配非某个字符串呢?比如某一字符串若是含有hello则无匹配,若是不含hello则匹配,写成[^hello]是显然不行的,[^(hello)] 呢?其实不起作用。

这时我们需要用到正则表达式的断言——(?!pattern) 零宽负向先行断言 或者 (?<!pattern) 零宽负向后行断言 均可。

这里只介绍一种写法,大家可以都去尝试一下。

/^((?!hello).)+$/

由于断言 (?!hello)是不占位的,后跟的 . 在原位置匹配任意字符,再用括号将其括起来,用+重复一次或多次,前后加上^和$,若是字符串中存在hello,则匹配到h字符之前的时候,断言(?!hello)匹配失败,正则匹配结果为false, 若是字符串中不存在hello,则匹配结果是整个字符串。

用法实战

  1. 匹配&和;之间不含有test的字符

str = “hello&nbsp; &test1;test&qout;”;

正则表达式:/&((?!test).)+;/g

匹配结果:&nbsp;和 &qout;

2.匹配不含有标签的标签

str = “<div id=’1′><img class=’xx’></div><div id=’1′><input type=”text”></div>“;

正则表达式: /<div[^>]*>((?!<img[^>]*>).)+</div>/g

匹配结果:<div id=’1′><input type=”text”></div>