问题描述
第一个问题,请放轻松。
我正在尝试使用 python 以编程方式从网站下载所有 excel 文件。我对 webscraping 很陌生,所以我的代码不符合要求 - 我已经在下面了。当我运行脚本时,我没有看到任何输出,也找不到我想要下载的文件。
不确定我做错了什么,或者我是否运行脚本错误。我正在通过 anaconda navigator 运行它,使用脚本导航到目录,然后使用以下命令运行它:
from bs4 import BeautifulSoup as bs
import requests
DOMAIN = 'https://lfportal.loudoun.gov/LFPortalinternet/'
URL = 'https://lfportal.loudoun.gov/LFPortalinternet/browse.aspx?startid=213973&row=1&dbid=0'
FILETYPE = '.xls'
def get_soup(url):
return bs(requests.get(url).text,'html.parser')
for link in get_soup(URL).find_all('a'):
file_link = link.get('href')
if FILETYPE in file_link:
print(file_link)
with open(link.text,'wb') as file:
response = requests.get(DOMAIN + file_link)
file.write(response.content)
这是我的脚本的代码。任何帮助或建议表示赞赏!
dplyr
解决方法
您遇到了最常见的问题 - 浏览器使用 JavaScript
向页面添加链接(当您单击年份时),但 requests
/beatifulsoup
无法运行 JavaScript
。
您必须在浏览器中关闭 JavaScript
并检查是否可以在没有 JavaScript
的情况下在浏览器中获取文件。然后你必须看看它是如何工作的,并在代码中做同样的事情。但有时可能需要Selenium来控制可以运行JavaScript
的真实浏览器。
当我在没有 JavaScript
的情况下在浏览器中打开 URL 时,我看不到任何 .xls
。我必须点击 year
,然后它会用 .xls
加载不同的 URL。
2017 年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/213974/Row1.aspx
2018 年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/285051/Row1.aspx
2019 年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/312510/Row1.aspx
2020 年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/384496/Row1.aspx
2021 年:https://lfportal.loudoun.gov/LFPortalinternet/0/fol/466963/Row1.aspx
您必须使用 beautifulsoup
找到这些网址并使用 requests
加载它们,然后您应该搜索 .xls
编辑:
代码搜索子页面并使用它们下载文件。
它每年下载到单独的文件夹。
import requests
from bs4 import BeautifulSoup as bs
import os
# --- functions ---
def get_soup(url):
response = requests.get(url)
#print(response.status_code)
#print(response.text)
html = response.text
soup = bs(html,'html.parser')
#soup = bs(html,'lxml')
#soup = bs(html,'html5lib')
return soup
# --- main ---
# - data -
DOMAIN = 'https://lfportal.loudoun.gov/LFPortalinternet/'
URL = 'https://lfportal.loudoun.gov/LFPortalinternet/Browse.aspx?startid=213973&row=1&dbid=0'
FILETYPE = '.xls'
# - code -
soup = get_soup(URL)
for folder_link in soup.find_all('a',{'class': 'DocumentBrowserNameLink'}):
folder_name = folder_link.get('aria-label').split(' ')[0]
folder_link = folder_link.get('href')
print('folder:',folder_name)
os.makedirs(folder_name,exist_ok=True)
subsoup = get_soup(DOMAIN + folder_link)
for file_link in subsoup.find_all('a',{'class': 'DocumentBrowserNameLink'}):
file_name = file_link.get('aria-label')[:-4] # skip extra `.xls` at the end
file_link = file_link.get('href')
if file_link.endswith(FILETYPE):
print(' file:',file_name)
file_name = os.path.join(folder_name,file_name)
with open(file_name,'wb') as file:
response = requests.get(DOMAIN + file_link)
file.write(response.content)
顺便说一句:我把它放在 GitHub furas/python-examples
,您的网页只包含文件夹,作为人类,您必须点击这些文件夹才能获取文件。
使用BS,您必须获取文件夹的链接,然后请求他们获取文件列表。
简化您的情况的是文件夹和文件都具有类属性 DocumentBrowserNameLink。
你可以有一个函数来找到它们
from bs4 import BeautifulSoup as bs
import requests
DOMAIN = 'https://lfportal.loudoun.gov/LFPortalinternet/'
URL = 'https://lfportal.loudoun.gov/LFPortalinternet/Browse.aspx?startid=213973&row=1&dbid=0'
FILETYPE = '.xls'
def get_soup(url):
return bs(requests.get(url).text,'html.parser')
def get_links(page):
result = page.find_all(class_="DocumentBrowserNameLink")
return result
page = get_soup(URL)
folder_links = get_links(page)
for link in folder_links:
page2 = get_soup(DOMAIN + link['href'])
file_links = get_links(page2)
for file in file_links:
filepath = file['href']
if FILETYPE in filepath:
print(DOMAIN + filepath)