一
selenium请求库
1.什么是selenium?
期初是一个自动化测试工具,原理是驱动浏览器
执行一些定好的操作。爬虫本质上就是模拟浏览器,
所以可以使用它来做爬虫
2.为什么要使用selenium?
优点:
-执行js代码
-不需要分析复杂的通信流程
-对浏览器做弹窗,下拉等操作
-**** 获取动态数据
-**** 破解登录验证
缺点:
-效率极低!所以我们一般用它来做登录验证
3.安装与使用
1.安装selenium请求库:
pip3 install selenium
2.必须安装浏览器
谷歌或火狐
3.下载浏览器驱动
http://npm.taobao.org/mirrors/chromedriver/2.38/
windows:
下载win32
selenium简单使用
from selenium import webdriver # 用来驱动浏览器的 from selenium.webdriver import ActionChains # 破解滑动验证码的时候用的 可以拖动图片 from selenium.webdriver.common.by import By # 按照什么方式查找,By.ID,By.CSS_SELECTOR from selenium.webdriver.common.keys import Keys # 键盘按键操作 from selenium.webdriver.support import expected_conditions as EC # 和下面webdriverwait一起用的 from selenium.webdriver.support.wait import webdriverwait # 等待页面加载某些元素 import time # 方式一:通过驱动打开浏览器 # driver = webdriver.Chrome(r'D:/chromedriver.exe') # 方式二:把webdriver.exe驱动放到 python解释器安装目录/scripts文件夹中 # python解释器安装目录/ scripts配置环境变量 driver = webdriver.Chrome() try: driver.get('https://www.jd.com/') # 获取显示等待对象10秒 # 可以等待某个标签加载10秒 wait=webdriverwait(driver,10) # 查找元素id为key input_tag=wait.until(EC.presence_of_element_located((By.ID,'key'))) time.sleep(5) # 在输入框输入商品名称 input_tag.send_keys('公仔') # 按下键盘回车键 input_tag.send_keys(Keys.ENTER) time.sleep(20) finally: # 关闭浏览器释放操作系统资源 driver.close()
selenium选择器
from selenium import webdriver # web驱动 from selenium.webdriver.common.keys import Keys # 键盘按键操作 import time
driver = webdriver.Chrome() try: # 隐式等待: 需要在get之前调用 # 等待任意元素加载10秒 driver.implicitly_wait(10) driver.get('https://www.baidu.com/') # 显式等待: 需要在get之后调用 time.sleep(5)
'''
===============所有方法===================
element是查找一个标签
elements是查找所有标签
'''
# 自动登录百度 start
# 1、find_element_by_link_text # 通过链接文本去找
login_link = driver.find_element_by_link_text('登录') login_link.click() # 点击登录
time.sleep(1)
# 2、find_element_by_id # 通过id去找
user_login = driver.find_element_by_id('TangrAM__PSP_10__footerULoginBtn') user_login.click() time.sleep(1)
# 3、find_element_by_class_name
user = driver.find_element_by_class_name('pass-text-input-userName') user.send_keys('*****')
# 4、find_element_by_name
pwd = driver.find_element_by_name('password') pwd.send_keys('*****') submit = driver.find_element_by_id('TangrAM__PSP_10__submit') submit.click()
# end
# 5、find_element_by_partial_link_text
# 局部链接文本查找
login_link = driver.find_element_by_partial_link_text('登') login_link.click()
# 6、find_element_by_css_selector
# 根据属性选择器查找元素
# .: class # #: id login2_link = driver.find_element_by_css_selector('.tang-pass-footerBarULogin') login2_link.click()
# 7、find_element_by_tag_name
div = driver.find_elements_by_tag_name('div') print(div) time.sleep(20)
finally: # 关闭浏览器释放操作系统资源 driver.close()