scrapy 优势:
- resquests和Beautifulsoup都是库,scrapy是框架
- scrapy框架可以加入前两项
- scrapy基于twisted,性能是最大的优势
- scrapy方便扩展,提供很多内置功能
- 内置的css和xpath selector非常方便,比Beautifulsoup快几十倍
常见类型网页:静态网页 动态网页 、 webserbice(restapi)
正则表达式:
- ^ 以xx开头 $ 以xx结尾 * 0次以及以上 ? 1次及以上 + 一次及以上 {} n次 {m,} m次以上 {m,n} n次m | 或
- [] 或 [^] 不是这个开头 [a-z] a-z任意选一个 .
- \s 空格字符 \S 飞空格字符 \w 字母 \W 非字母
- [\u4e00-\u9FA5] 中文 () 取括号也表示优先级和元祖 \d 数字
python分布式爬虫搭建开发环境(二)
原文:http://www.cnblogs.com/Mjonj/p/7637080.html