Python Selenium访问内部元素

问题描述

只是为了好玩,我尝试提取该NFL赛季第一天的预定比赛。 到目前为止,我已经在Python中有了这段代码

from selenium import webdriver

from selenium.webdriver.support.ui import webdriverwait
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC

from webdriver_manager.chrome import ChromeDriverManager

browser = webdriver.Chrome(ChromeDriverManager().install())

from selenium.webdriver.chrome.options import Options

opts = Options()
opts.headless=True

#browser = driver(options=opts)
print("Start")

website = "https://www.nfl.com/schedules/2020/REG1"
browser.get(website)
gamedays = webdriverwait(browser,20).until(EC.visibility_of_all_elements_located((By.CLASS_NAME,"nfl-o-matchup-group")))
   
print ("There are: ",len(gamedays))

这将打印“ There are:3”,这是正确的,因为有三个部分具有该类。 如何深入研究每个部分? 例如,有一个元素具有比赛日期,当然有一些元素具有主队和客队。

我尝试过

   for j in range(0,len(gamedays)):
      game_on = gamedays[j].find_elements_by_class_name('d3-o-section-title')
      print(game_on)

可打印

[<selenium.webdriver.remote.webelement.WebElement (session="d8807c1ca013d7a2d58bd7377b42ca1a",element="034de32d-bf64-4544-94aa-d97ed6640367")>]

那没有帮助。

那么,我如何获得这些信息?

感谢您的帮助。

解决方法

解决方案

遍历awk中返回的对象并打印其game_on

innerHtml

OR

print(game_on.get_attribute("innerHTML"))
,

您快到了。使用代码行:

print(game_on)

您正在打印元素,而需要打印 textContent


解决方案

要打印 textContent ,例如 9月11日,星期五,等等,您可以使用以下Locator Strategies中的任何一个:

  • 使用 xpath get_attribute()

    browser.get(website)
    print([my_elem.get_attribute("innerHTML") for my_elem in WebDriverWait(browser,20).until(EC.visibility_of_all_elements_located((By.CLASS_NAME,"nfl-o-matchup-group")))])
    
  • 使用 xpath text 属性:

    browser.get(website)
    print([my_elem.text for my_elem in WebDriverWait(browser,"nfl-o-matchup-group")))])
    

您可以在How to retrieve the text of a WebElement using Selenium - Python

中找到相关的讨论

Outro

链接到有用的文档: