python 正则表达式贪婪模式与非贪婪模式

时间：2015-03-26 15:02:20 阅读：602 评论：0 收藏：0 [点我收藏+]

之前未接触过正则表达式，今日看python网络爬虫的源码，里面一行正则表达式匹配的代码初看之下，不是很理解，代码如下：

myItems = re.findall(‘<div.*?class="content".*?title="(.*?)">(.*?)</div>‘,unicodePage,re.S)

“.*?”这种匹配方式，按理解应该是匹配任意字符0个或多个（re.S模式，“.”可以匹配“\n”），但是这个“？”总觉的在这儿是多余的，既然不理解，就敲代码试试：

import re

patern = re.compile(‘www\..*‘)
match1 = patern.match("www.baidu.com")
if match1:
    print(match1.group())
else:
    print("match1 don‘t match")

#output
>>> ==================RESTART =============================
>>> 
www.baidu.com

这个结果，应该说是意料之中，加个“？”呢？

import re

patern = re.compile(‘www\..*?‘)
match1 = patern.match("www.baidu.com")
if match1:
    print(match1.group())
else:
    print("match1 don‘t match")

#output
>>> ==================RESTART =============================
>>> 
www.

竟然是这个结果。。。“.?”一个字符都没匹配，按“.”、“”、“?”的匹配理解，也就是“*”“？”均匹配前面字符0次，才会是这个结果，可是为啥就是0次了？
这就是正则表达式贪婪模式和非贪婪模式：
贪婪模式，总是尝试匹配尽可能多的字符；
非贪婪模式则相反，总是尝试匹配尽可能少的字符。
Python里数量词默认是贪婪的，这就解释了第一个匹配实验，输出结果为”www.baidu.com”（贪婪模式），也就是说第二个匹配实验是非贪婪模式，仅仅因为加了“？”，继续实验

import re

patern = re.compile(‘www\..?‘)
match1 = patern.match("www.baidu.com")
if match1:
    print(match1.group())
else:
    print("match1 don‘t match")

#output
>>> ==================RESTART =============================
>>> 
www.b

此次匹配结果，显然是贪婪模式。奇怪了，也就是“？”的特殊组合才是非贪婪模式。
网上搜索得如下说明：
标准量词修饰的子表达式，在可匹配可不匹配的情况下，总会先尝试进行匹配，称这种方式为匹配优先，或者贪婪模式。此前介绍的一些量词，“{m}”、“{m,n}”、“{m,}”、“?”、“*”和“+”都是匹配优先的。
一些NFA正则引擎支持忽略优先量词，也就是在标准量词后加一个“?”，此时，在可匹配可不匹配的情况下，总会先忽略匹配，只有在由忽略优先量词修饰的子表达式，必须进行匹配才能使整个表达式匹配成功时，才会进行匹配，称这种方式为忽略优先，或者非贪婪模式。忽略优先量词包括“{m}?”、“{m,n}?”、“{m,}?”、“??”、“*?”和“+?”。
显然“*？”的组合是非贪婪模式，猜想正确，原来如此啊。

python 正则表达式贪婪模式与非贪婪模式

原文：http://blog.csdn.net/haoxizh/article/details/44648069

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)