问题描述
我正在尝试实施网络抓取工具,以近乎实时的方式从网站上抓取动态更新的内容。
让我们以https://www.timeanddate.com/worldclock/为例,假设我想连续获取当前时间在自己的家中。 现在我的解决方案如下:每秒获取渲染的页面内容,并使用bs4提取时间。工作代码:
import asyncio
import bs4
import pyppeteer
def get_current_time(content):
soup = bs4.BeautifulSoup(content,features="lxml")
clock = soup.find(class_="my-city__digitalClock")
hour_minutes = clock.contents[3].next_element
seconds = clock.contents[5].next_element
return hour_minutes + ":" + seconds
async def main():
browser = await pyppeteer.launch()
page = await browser.newPage()
await page.goto("https://www.timeanddate.com/worldclock/")
for _ in range(30):
content = await page.content()
print(get_current_time(content))
await asyncio.sleep(1)
await browser.close()
asyncio.run(main())
我想做的是:仅在页面上的时间更新时做出反应。原因:更快的反应和更少的计算强度(尤其是在监视多个页面时,这些页面可能以小于或大于一秒的不规则间隔进行更新)。
我已经/尝试了以下三个解决方案,但是我不知道该怎么做。还有一种更简单/更优雅的方法:
这似乎不起作用,因为在最初加载页面后(广告除外)没有更多的网络活动,正如我在Chrome Dev Tools的“网络”标签中所见。
使用Chrome开发工具的“来源”标签中的“事件监听器断点”,可以停止在各种事件(例如“设置innerHTML”事件)上执行JavaScript代码。
是否可以使用pyppeteer做类似的事情,提供有关事件的一些上下文信息(例如,用哪个新文本更新哪个元素)?
似乎可以使用JavaScript和puppeteer(请参阅https://github.com/puppeteer/puppeteer/blob/main/examples/custom-event.js),但是我认为pyppeteer不提供此功能(我在API参考中找不到它)。
这个想法是受以下博客文章启发的:https://antoinevastel.com/javascript/2019/06/10/monitor-js-execution.html
博客文章的完整代码:https://github.com/antoinevastel/blog-post-monitor-js/blob/master/monitorExecution.js
我尝试了一下,但是我的JavaScript似乎太局限了,甚至无法覆盖页面使用的其中一种javascript中的函数。
解决方法
您可以使用Selenium来实现。我正在通过Chrome webdriver使用webdriver-manager,但是您可以修改它以使用您喜欢的任何东西。
首先,我们所有的进口商品
ConcatIterator<TSHeaderItem>
使用from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from webdriver_manager.chrome import ChromeDriverManager
参数创建我们的driver
对象,以使浏览器窗口不会打开。
headless
定义一个接受options = Options()
options.add_argument("--headless")
driver = webdriver.Chrome(ChromeDriverManager().install(),options=options)
来提取时钟时间的函数。
WebElement
获取页面并提取时钟def getTimeString(myClock: WebElement) -> str:
hourMinute = myClock.find_element(By.XPATH,"span[position()=2]").text
seconds = myClock.find_element(By.CLASS_NAME,"my-city__seconds").text
return f"{hourMinute}:{seconds}"
WebElement
最后,实现我们的循环
driver.get("https://www.timeanddate.com/worldclock/")
myClock = driver.find_element(By.CLASS_NAME,"my-city__digitalClock")
在逻辑结束之前,请确保运行last = None
while True:
now = getTimeString(myClock)
if now == last:
continue
print(now)
last = now
进行清理。
输出
driver.quit()