问题描述
我需要刮掉所有英语5克(2012版)并将其存储在我大学的HPC服务器上。我尝试使用google_ngram_downloader的多个变体,但对我而言不起作用。它随机下载一个数据文件,而不是我要查找的所有5gram。相反,我使用的是这段代码:
import requests
import urllib.request
import time
from bs4 import BeautifulSoup
url = 'http://storage.googleapis.com/books/ngrams/books/datasetsv2.html'
response = requests.get(url)
soup = BeautifulSoup(response.text,'html.parser')
soup.findAll('a')
one_a_tag = soup.findAll('a')[2217]
link = one_a_tag['href']
line_count = 1 #variable to track what line you are on
for one_a_tag in soup.findAll('a'): #'a' tags are for links
if line_count >= 2217 and line_count <= 2939: #text files starts at line X and ends at line Y
download_url = link
urllib.request.urlretrieve(download_url,"https:\portal.aci.ics.psu.edu\pun\sys\files\fs\storage\home\user\NLP\Data\" + link[link.find('googlebooks-eng-all-5gram-20120701-'):])
time.sleep(1)
line_count +=1
我或者得到一个错误消息“找不到”,表明我的目录存在问题;但是,当我使用本地目录时,仍然出现相同的错误或“在扫描字符串文字时停止运行”。我在想代码的URL部分有问题,但是我无法弄清楚它是什么。我已经坚持了好几天,可以解决我遇到的其他一些问题,但是我仍然无法成功运行它。
解决方法
暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!
如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。
小编邮箱:dio#foxmail.com (将#修改为@)