首页 > 编程语言 > 详细

Python 配置 selenium 模拟浏览器环境,带下载链接

时间:2019-04-25 12:48:06      阅读:171      评论:0      收藏:0      [点我收藏+]

使用浏览器渲染引擎。直接用浏览器在显示网页时解析HTML,应用CSS样式并执行JavaScript的语句。

这方法在爬虫过程中会打开一个浏览器,加载该网页,自动操作浏览器浏览各个网页,顺便把数据抓下来。用一句简单而通俗的话说,使用浏览器渲染方法,爬取动态网页变成了爬取静态网页。

我们可以用Python的selenium库模拟浏览器完成抓取。Selenium是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,浏览器自动按照脚本代码做出点击,输入,打开,验证等操作,就像真正的用户在操作一样

selenium 的安装与基本介绍

selenium的安装非常简单,和其他的Python 库一样,我们可以用pip 安装。

pip install selenium

火狐浏览器:geckodriver.exe

  下载对应浏览器的版本 geckodriver.exe v15.0版本

  由于最新版火狐不在支持FireBug等开发工具,可以在https://ftp.mozilla.org/pub/firefox/releases/下载49版本以下的火狐,就可以增加Firebug等扩展了。

  我下载了火狐Firefox Setup 48.0b9.exe,安装后,在https://github.com/mozilla/geckodriver/releases/下载最新版geckodriver,将geckodriver.exef放在C:\Program Files (x86)\Mozilla Firefox目录下(就是你装浏览器的目录哈),并将其加入环境变量,


  #!/usr/bin/python
  #coding: utf-8


from
selenium import webdriver driver = webdriver.Firefox() driver.get(https://www.baidu.com)

 

IE11浏览器:IEDriverServer.exe  

  IE浏览器驱动下载链接:http://selenium-release.storage.googleapis.com/index.html(需爬梯),安装最新版v3.9,将其放在C:\Windows\System32目录下(不用加入环境变量,默认在环境变量中),运行如下代码,发现报错如下,降低版本为3.0.0,重新运行代码发现成功。

#!/usr/bin/python
#coding: utf-8
from selenium import webdriver
driver = webdriver.Ie()
driver.get(http://www.baidu.com)

 

Python 配置 selenium 模拟浏览器环境,带下载链接

原文:https://www.cnblogs.com/xiaohe520/p/10767693.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!