首页 > 编程语言 > 详细

Python爬虫连载15-利用selenium模块控制chrome

时间:2020-03-18 10:53:58      阅读:58      评论:0      收藏:0      [点我收藏+]

一、

1.下载安装chrome+chrome driver

2.selenium?操作主要分为两类:

(1)得到UI元素

find_element_by_id:通过id值来获取元素

find_elements_by_name(下面都同理)

find_elements_by_xpath

find_elements_by_link_text

find_elements_by_partial_link_text

find_elements_by_tag_name

find_elements_by_class_name

find_elements_by_css_selector

(2)基于UI元素操作的模拟

单击;右键;?拖拽;?输入;可以通过导入ActionChains类来做到

 

from selenium import webdriver

from selenium.webdriver.common.keys import Keys#导入的键盘

import time

#可能需要手动添加路径

chromedriverAddress = r"C:\Users\lenovo1\AppData\Local\Programs\Python\Python37\Lib\site-packages\selenium\webdriver\chrome\chromedriver.exe"

driver = webdriver.Chrome(executable_path=chromedriverAddress)

#写这一行的时候报错了,可见这里配置:https://blog.csdn.net/weixin_43746433/article/details/95237254

?

url = "http://www.baidu.com"

driver.get(url)

text1 = driver.find_element_by_id("wrapper").text#得到这个元素的值

print(text1)

print(driver.title)

#得到页面的快照

driver.save_screenshot("index,png")

?

driver.find_element_by_id("kw").send_keys(u"大熊猫")#向这个id输入“大熊猫”(实际上这里的kw的id就是查找的字段)

driver.find_element_by_id("su").click()#点击操作(实际上就是上一步键入信息,下一步我们进行检索)

time.sleep(5)

driver.save_screenshot("daxiongmao.png")

#获取当前界面的cookie

print(driver.get_cookies())

#模拟输入两个按键ctrl+a

driver.find_element_by_id("kw").send_keys(Keys.CONTROL,a)

#模拟ctrl + x,剪切操作

driver.find_element_by_id("kw").send_keys(Keys.CONTROL,x)

driver.find_element_by_id("kw").send_keys(u"航空母舰")

driver.save_screenshot("hangmu.png")

driver.find_element_by_id("su").send_keys(Keys.RETURN)

time.sleep(5)

driver.save_screenshot("hangmu2.png")

#清空输入框,clear

driver.find_element_by_id("kw").clear()

?

#关闭浏览器

driver.quit()

技术分享图片

技术分享图片

 

二、验证码问题

1.?验证码最大的作用就是用于判断访问者是机器人还是真人,可以分为:?见到那图片;极验(?官网:www.geetest.com);12306;电话?报验证码;google验证?;

2.?验证码破解:

(1)?通用方法:下载网页和验证码?;手动输入验证号码/

(2)简单图片?:使用图像识别软件?识别软件;可以使用第三方图像验证码破解网站

三、源码

Reptile15_1_DHtmlChrome.py

https://github.com/ruigege66/PythonReptile/blob/master/Reptile15_1_DHtmlChrome.py

2.CSDN:https://blog.csdn.net/weixin_44630050

3.博客园:https://www.cnblogs.com/ruigege0000/

4.欢迎关注微信公众号:傅里叶变换,个人公众号,仅用于学习交流,后台回复”礼包“,获取大数据学习资料

?技术分享图片

 

Python爬虫连载15-利用selenium模块控制chrome

原文:https://www.cnblogs.com/ruigege0000/p/12514819.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!