在 Python 中使用 BeautifulSoup 解析 HTML 未知错误

问题描述

我知道此代码适用于其他以 .com 结尾的网站

但是我注意到如果我尝试解析以 .kr 结尾的网站,代码将不起作用

有人可以帮助找出发生这种情况的原因以及解析这些类型网站的替代解决方案吗?

以下是我的代码

import requests
from bs4 import BeautifulSoup

URL = 'https://everytime.kr/@nN4K1XC0weHnnM9VB5Qe'
page = requests.get(URL)

soup = BeautifulSoup(page.content,'html.parser')
results = soup.find(id='container')
print(results)

这里的 URL 是我的时间表的链接。我需要解析这个网站,以便我可以轻松收集学科信息和与学科相关的数据(持续时间、地点、教授姓名等)。

谢谢

解决方法

网站正在提供动态内容,您得到一个空响应 - 您可以使用 selenium。

示例

from selenium import webdriver
from bs4 import BeautifulSoup
import time

driver = webdriver.Chrome(executable_path=r'C:\Program Files\ChromeDriver\chromedriver.exe')
url = 'https://everytime.kr/@nN4K1XC0weHnnM9VB5Qe'
driver.get(url)
time.sleep(5)

soup = BeautifulSoup(driver.page_source,'html.parser')
results = soup.find(id='container')
print(results)

driver.close()