python 自学第二课：使用BeautifulSoup抓取链接正则表达式

时间：2017-11-16 13:37:39 阅读：256 评论：0 收藏：0 [点我收藏+]

python 自学第二课：使用BeautifulSoup抓取链接正则表达式

具体的查看BeautifulSoup文档（根据自己的安装的版本查看对应文档）

文档链接https://www.crummy.com/software/BeautifulSoup/bs4/doc/index.zh.html#

#!/usr/bin/env python
# -*- coding:utf-8 -*-
import io  
import sys
from urllib import request
from bs4 import BeautifulSoup
import re
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=‘utf8‘) #改变标准输出的默认编码  
resp = request.urlopen("http://news.baidu.com/").read().decode("utf-8")
soup =BeautifulSoup(resp,"html.parser")
listUrls=soup.find_all("a",href=re.compile(".*\/\/news\.baidu.*"))
for url in listUrls:
print (url["href"])

最后效果：

http://news.baidu.com/view.html
http://news.baidu.com/advanced_news.html
http://news.baidu.com/pianhao.html
http://news.baidu.com/n?bypass=lamp&m=pagesother&v=newsgx
http://news.baidu.com/n?cmd=6&loc=0&name=%B1%B1%BE%A9
http://news.baidu.com/history.html
http://news.baidu.com/newscode.html
http://news.baidu.com/licence.html

python 自学第二课：使用BeautifulSoup抓取链接正则表达式

原文：http://www.cnblogs.com/jieshendada/p/7843785.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)

python 自学第二课： 使用BeautifulSoup抓取链接 正则表达式

python 自学第二课： 使用BeautifulSoup抓取链接 正则表达式

python 自学第二课：使用BeautifulSoup抓取链接正则表达式

python 自学第二课：使用BeautifulSoup抓取链接正则表达式