问题描述
我正在尝试使用以下代码转到每个下一页。 它从第 1 页收集数据。但是当我尝试循环它并转到下一页时,它给了我一个错误。
网页:https://register.fca.org.uk/s/search?q=capital&type=Companies
这是代码:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
import time
url = 'https://register.fca.org.uk/s/search?q=capital&type=Companies'
service = Service('linkto crome driver')
service.start()
driver = webdriver.Remote(service.service_url)
driver.get(url)
time.sleep(12)
for j in range(346):
divs = driver.find_elements_by_xpath('//div[@class="result-card_main"]')
for i in range(len(divs)):
time.sleep(10)
d = driver.find_elements_by_xpath('//div[@class="result-card_main"]')
RN = ''
d[i].click()
time.sleep(12)
try:
RNData = driver.find_elements_by_xpath('//*[@id="profile-header"]/div[1]/div/div/div/div/div/div[1]/div[2]/div/div')
RN = RNData[0].text.split(':')[1].strip()
print(RN)
except Exception as e5:
pass
if i == (len(divs) - 1):
pass
else:
driver.execute_script("window.history.go(-1)")
bt = driver.find_elements_by_xpath('//*[@id="-pagination-next-btn"]')
bt[0].click()
这是错误:
IndexError: list index out of range
我该如何解决这个问题?
解决方法
我猜问题如下:
bt = driver.find_element_by_xpath('//*[@id="-pagination-next-btn"]')
返回单个 Web 元素对象,它不是列表,因此您不能使用 bt[0]
对其应用索引
更新:
从 find_element_by_xpath
更改为 find_elements_by_xpath
后,您仍然会看到 IndexError: list index out of range
,因为您位于内页并执行了驱动程序返回操作。
紧接着,您正在尝试在主页尚未加载时获取下一页按钮。这实际上会返回一个空列表
bt = driver.find_elements_by_xpath('//*[@id="-pagination-next-btn"]')
这就是为什么您不能将 bt[0]
应用于空列表对象的原因。
你的问题是:
if i == (len(divs) - 1):
pass
else:
driver.execute_script("window.history.go(-1)")
点击最后一个链接后,您不会导航回初始页面,也就是分页按钮所在的位置。我认为您根本不需要这个条件,所以您的代码可能是:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
import time
url = 'https://register.fca.org.uk/s/search?q=capital&type=Companies'
service = Service('linkto crome driver')
service.start()
driver = webdriver.Remote(service.service_url)
driver.get(url)
time.sleep(12)
for j in range(346):
divs = driver.find_elements_by_xpath('//div[@class="result-card_main"]')
for i in range(len(divs)):
time.sleep(10)
d = driver.find_elements_by_xpath('//div[@class="result-card_main"]')
RN = ''
d[i].click()
time.sleep(12)
try:
RNData = driver.find_elements_by_xpath('//*[@id="profile-header"]/div[1]/div/div/div/div/div/div[1]/div[2]/div/div')
RN = RNData[0].text.split(':')[1].strip()
print(RN)
except Exception as e5:
pass
driver.execute_script("window.history.go(-1)")
bt = driver.find_elements_by_xpath('//*[@id="-pagination-next-btn"]')
bt[0].click()