首页 > 编程语言 > 详细

Website Scraping with Python 阅读笔记

时间:2019-01-09 00:09:41      阅读:177      评论:0      收藏:0      [点我收藏+]

第一章

  工程涉及的基本工具:requests, beautiful soup, scrapy。

  法规与技术约定:read the Terms & Conditions and the Privacy Policy  of the website。让不让爬?
          See the robots.txt file 。哪些可以爬?
          website’s HTML code。目标网页涉及什么技术?

          taskand the website‘s structure.。该选什么工具?

  Terms and Robots重点读:scraper/scraping
                crawler/crawling
                   bot
                   spider
                 program

  网页技术:使用python的builtwith库探查网页使用的技术

  谷歌浏览器开发者工具:勘察网页

  工具选择:small project(简单页面、没有涉及js的) Beautiful Soup + requests or  use Scrapy。

       有大量数据的,追求性能的  Scrapy + Beautiful Soup。

       面对AJAX技术就要打电话摇人了,Selenium and Portia 出场。


 

          

          

    

  

Website Scraping with Python 阅读笔记

原文:https://www.cnblogs.com/roygood/p/10242010.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!