python爬虫学习(2)__抓取糗百段子，与存入mysql数据库

时间：2016-08-12 20:00:37 阅读：241 评论：0 收藏：0 [点我收藏+]

import pymysql
import requests
from bs4 import BeautifulSoup
#pymysql链接数据库
conn=pymysql.connect(host=‘127.0.1‘,unix_socket=‘/tmp/mysql.sock‘,user=‘root‘,passwd=‘19950311‘,db=‘mysql‘)
cur=conn.cursor()
cur.execute("USE scraping") 
#存储段子标题，内容
def store(title,content):
    cur.execute("insert into pages(title,content) values(\"%s\",\"%s\")",(title,content))
    cur.connection.commit()
global links
class QiuShi(object):
    def __init__(self,start_url):
        self.url=start_url
    def crawing(self):
        try:
            html=requests.get(self.url,‘lxml‘)
            return html.content
        except  ConnectionError as e:
            return ‘‘
    def extract(self,htmlContent):
        if len(htmlContent)>0:
            bsobj=BeautifulSoup(htmlContent,‘lxml‘)
            #print bsobj
            jokes=bsobj.findAll(‘div‘,{‘class‘:‘article block untagged mb15‘})
            for j in jokes:
                text=j.find(‘h2‘).text
                content=j.find(‘div‘,{‘class‘:‘content‘}).string
                if text != None and content != None:
                     # print text,content，数据库编码为utf-8
                     store(text.encode(‘utf-8‘),content.encode(‘utf-8‘))
                     print text.encode(‘utf-8‘),content.encode(‘utf-8‘)
                     print ‘------------------------------------------------------------------------------‘
        else:
            print ‘‘
    def main(self):
        text=self.crawing()
        self.extract(text)
try:
    qiushi=QiuShi(‘http://www.qiushibaike.com/‘)
    qiushi.main()
finally:
#关闭cursor,connection
    cur.close()
    conn.close()

原文：http://www.cnblogs.com/yunwuzhan/p/5765963.html

踩

(0)

评论一句话评论（0）

分享档案

更多>

2021年09月23日 (328)
2021年09月24日 (313)
2021年09月17日 (191)
2021年09月15日 (369)
2021年09月16日 (411)
2021年09月13日 (439)
2021年09月11日 (398)
2021年09月12日 (393)
2021年09月10日 (160)
2021年09月08日 (222)