首页 > 编程语言 > 详细

python分布式爬虫搭建开发环境(二)

时间:2017-10-08 13:26:05      阅读:280      评论:0      收藏:0      [点我收藏+]

scrapy 优势:

  1. resquests和Beautifulsoup都是库,scrapy是框架
  2. scrapy框架可以加入前两项
  3. scrapy基于twisted,性能是最大的优势
  4. scrapy方便扩展,提供很多内置功能
  5. 内置的css和xpath selector非常方便,比Beautifulsoup快几十倍

常见类型网页:静态网页 动态网页 、 webserbice(restapi)


 

正则表达式: 

  1.   以xx开头   $  以xx结尾   *  0次以及以上1次及以上  + 一次及以上 {} n次 {m,}  m次以上 {m,n}  n次m  |  或
  2. [] 或   [^]  不是这个开头   [a-z]  a-z任意选一个  .
  3. \s  空格字符 \S  飞空格字符 \w 字母  \W  非字母
  4. [\u4e00-\u9FA5] 中文  ()  取括号也表示优先级和元祖  \d  数字 

python分布式爬虫搭建开发环境(二)

原文:http://www.cnblogs.com/Mjonj/p/7637080.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!