首页 > 其他 > 详细

爬取小说时--去空行和有序化

时间:2019-11-23 22:20:55      阅读:87      评论:0      收藏:0      [点我收藏+]

有序化

  • 以小说章节目录的数字为文件名,一章一个文件(但上千章就得有上千个文件)
  • 在每次获取小说章节里的内容时,给item添加新的标识,添加对应的章节的数字,全部存入数据库,然后根据这个数字标识排序取出数据即可

去空行

  • 利用splitlines()和strip()
    • str.splitlines([keepends])
    • 参数keepends---在输出结果里是否保留换行符(‘\r‘, ‘\r\n‘, \n‘),默认为 False,不包含换行符,如果为 True,则保留换行符。
  • text = ‘‘.join([s for s in text.splitlines(True) if s.strip()])
    • 技术分享图片
    • 技术分享图片




爬取小说时--去空行和有序化

原文:https://www.cnblogs.com/jiyu-hlzy/p/11919842.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!