如何在python中使用beautifulsoup或任何其他刮刀刮取检查过的元素？

问题描述

我正在编写一个抓取程序。我首先使用 selenium 来获取元素的源（一个 mp4 文件），然后我看到 selenium 主要用于自动化和测试，而不是抓取。我认为使用其他刮板模块会更合理。但是当我使用 requests+beautifulsoup 或 urllib2/3+beautifulsoup 时，我无法获得检查元素。他们正在获取页面源代码，但在我正在工作的网页中，页面源代码与我检查时弹出的 HTML 不同。（我不太了解检查和页面源之间的区别，但我想这与 JS 有关系。）有什么想法可以解决这个问题吗？这是我的代码：

from  bs4 import  BeautifulSoup

import  requests

response = requests.get("https://animefrenzy.org/stream/one-piece-episode-974")

soup = BeautifulSoup(response.text,"lxml")

print(soup)

这是我想要的 html 字符串： Inspect

这是我执行上述代码时得到的结果： terminal result

解决方法

如果您只想要 HTML（源代码），那么这里是获取它的代码。

from selenium import webdriver
import time

driver = webdriver.Firefox/Chrome(executable_path=r'/path/to/webdriver')

driver.get('https://animefrenzy.org/stream/one-piece-episode-974')
time.sleep(10)
html=driver.page_source
print(html)

这应该给你你想要的 HTML，我们使用 time.sleep(10) 因为页面必须加载 javascript 并更改页面的内容。如果您没有得到想要的 HTML，请尝试将睡眠时间更改为更多，以便该页面完全加载。

python web-scraping

如何在python中使用beautifulsoup或任何其他刮刀刮取检查过的元素？

问题描述

解决方法

相关问答