首页 > 其他 > 详细

寒假学习报告06

时间:2020-02-07 01:38:23      阅读:95      评论:0      收藏:0      [点我收藏+]

学了使用scarpy框架进行爬虫,爬取了某网站的部分信息。

技术分享图片

 

部分代码:

技术分享图片
# -*- coding: utf-8 -*-
import scrapy
from dangdang01.items import Dangdang01Item
from scrapy.http import Request

class DdSpider(scrapy.Spider):
    name = dd
    allowed_domains = [dangdang.com]
    start_urls = [http://search.dangdang.com/?key=%C5%AE%D7%B0&act=input&page_index=1]

    def parse(self, response):
        item = Dangdang01Item()
        item["title"] = response.xpath("//a[@name=‘itemlist-title‘]/@title").extract()
        item["link"] = response.xpath("//a[@name=‘itemlist-title‘]/@href").extract()
        item["comment"] = response.xpath("//a[@name=‘itemlist-review‘]/text()").extract()
        yield item
        for i in range(2,81):
            url = http://search.dangdang.com/?key=%C5%AE%D7%B0&act=input&page_index=+str(i)
            yield Request(url,callback=self.parse)
View Code

 

寒假学习报告06

原文:https://www.cnblogs.com/baimafeima/p/12271212.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!