【爬虫】beautiful soup笔记（待填坑）

时间：2017-05-27 15:04:53 阅读：333 评论：0 收藏：0 [点我收藏+]

Beautiful Soup是一个第三方的网页解析的模块。其遵循的接口为Document Tree，将网页解析成为一个树形结构。

其使用步骤如下：

1、创建对象：根据网页的文档字符串

2、搜索节点：名称、属性、文字。

3、处理节点：

BeautifulSoup(文档字符串， ‘html.parser‘ 解析器，from_encoding=‘utf8‘)

find_all(名称，属性，文字)：可以传入字符串也可以传入正则表达式。

node.name 名称

node[‘href‘] 属性

node.get_text 文字

原文：http://www.cnblogs.com/yesuuu/p/5747463.html

踩

(0)

评论一句话评论（0）

分享档案

更多>