首页 > Web开发 > 详细

Scrapy结合Selenium怎样采集动态加载网站?

时间:2019-07-12 18:51:36      阅读:97      评论:0      收藏:0      [点我收藏+]

  ScrapySelenium的结合使用确实取决于你采集的网站,以及你想采集什么样的数据等。下面的代码就是一个简单的案例,这个案例可以帮助你在商品网站上进行翻页:

  

import scrapy
from selenium import webdriver

class ProductSpider(scrapy.Spider):
    name = "product_spider"
    allowed_domains = [‘ebay.com‘]
    start_urls = [‘http://www.ebay.com/sch/i.html?_odkw=books&_osacat=0&_trksid=p2045573.m570.l1313.TR0.TRC0.Xpython&_nkw=python&_sacat=0&_from=R40‘]

    def __init__(self):
        self.driver = webdriver.Firefox()

    def parse(self, response):
        self.driver.get(response.url)

        while True:
            next = self.driver.find_element_by_xpath(‘//td[@class="pagn-next"]/a‘)

            try:
                next.click()

                # get the data and write it to scrapy items
            except:
                break

        self.driver.close()

  

 

 

 

Scrapy结合Selenium怎样采集动态加载网站?

原文:https://www.cnblogs.com/renshaoqi/p/11177641.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!