首页 > 编程语言 > 详细

python网页爬虫开发之六-Selenium使用

时间:2018-10-25 16:53:18      阅读:144      评论:0      收藏:0      [点我收藏+]
chromedriver禁用图片,禁用js,切换UA
selenium 模拟chrome浏览器,此时就是一个真实的浏览器,一个浏览器该加载的该渲染的它都加载都渲染,所以爬取网页的速度很慢。如果可以不加载图片等操作,网页加载速度就会快不少,代码中列出了了禁用图片,禁用JS,切换UA的方法。
 
   
 
from selenium import webdriver
 
from fake_useragent import UserAgent
 
   
 
ua = UserAgent().random
 
print(ua)
 
chrome_options = webdriver.ChromeOptions()
 
prefs = {
 
‘profile.default_content_setting_values‘: {
 
# 也可以这样写,两种都正确
 
# ‘profile.default_content_settings‘: {
 
‘images‘: 2, # 不加载图片
 
‘javascript‘: 2, # 不加载JS
 
"User-Agent": ua, # 更换UA
 
}
 
}
 
chrome_options.add_experimental_option("prefs", prefs)
 
browser = webdriver.Chrome(executable_path="C:/codeapp/seleniumDriver/chrome/chromedriver.exe", chrome_options=chrome_options)
 
#这个网页可以显示浏览器的信息,这样我们就可以看到我们的UA信息,
 
url = "https://httpbin.org/get?show_env=1"
 
browser.get(url)

python网页爬虫开发之六-Selenium使用

原文:https://www.cnblogs.com/joxin/p/9850896.html

(0)
(0)
   
举报
评论 一句话评论(0
关于我们 - 联系我们 - 留言反馈 - 联系我们:wmxa8@hotmail.com
© 2014 bubuko.com 版权所有
打开技术之扣,分享程序人生!