首页 > 其他 > 详细

spider.3-爬虫中的re

时间:2020-10-10 22:08:09      阅读:42      评论:0      收藏:0      [点我收藏+]

1、compile()

编译正则表达式模式,返回一个对象的模式。(可以把那些常用的正则表达式编译成正则表达式对象,这样可以提高一点效率。)

格式:

re.compile(pattern,flags=0)

pattern: 编译时用的表达式字符串。

flags 编译标志位,用于修改正则表达式的匹配方式,如:是否区分大小写,多行匹配等

标志
含义
re.S(DOTALL)
使.匹配包括换行在内的所有字符
re.I(IGNORECASE)
使匹配对大小写不敏感
re.L(LOCALE)
做本地化识别(locale-aware)匹配,法语等技术分享图片
re.M(MULTILINE)
多行匹配,影响^和$
re.X(VERBOSE)
该标志通过给予更灵活的格式以便将正则表达式写得更易于理解
re.U
根据Unicode字符集解析字符,这个标志影响\w,\W,\b,\B
import re
tt = "Tina is a good girl, she is cool, clever, and so on..."
rr = re.compile(r\w*oo\w*)
print(rr.findall(tt))   #查找所有包含‘oo‘的单词
执行结果如下:
[good, cool]

2、findall()

re.findall遍历匹配,可以获取字符串中所有匹配的字符串,返回一个列表。

 格式:

re.findall(pattern, string, flags=0)

import re 

s = "A B C D"

# 1.
p1 = re.compile(\w+\s+\w+)
print(p1.findall(s))

# 2.
print(re.findall(\w+\s+\w+,s))

# 3.
print(re.compile(\w+\s+\w+).findall(s))

 

3.

 

spider.3-爬虫中的re

原文:https://www.cnblogs.com/LQD-future/p/13689455.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!