抓取Google Ngram数据

问题描述

我需要刮掉所有英语5克（2012版）并将其存储在我大学的HPC服务器上。我尝试使用google_ngram_downloader的多个变体，但对我而言不起作用。它随机下载一个数据文件，而不是我要查找的所有5gram。相反，我使用的是这段代码：

import requests
import urllib.request
import time
from bs4 import BeautifulSoup

url = 'http://storage.googleapis.com/books/ngrams/books/datasetsv2.html'
response = requests.get(url)

soup = BeautifulSoup(response.text,'html.parser')

soup.findAll('a')

one_a_tag = soup.findAll('a')[2217]
link = one_a_tag['href']

line_count = 1 #variable to track what line you are on
for one_a_tag in soup.findAll('a'):  #'a' tags are for links
    if line_count >= 2217 and line_count <= 2939: #text files starts at line X and ends at line Y
        download_url = link
        urllib.request.urlretrieve(download_url,"https:\portal.aci.ics.psu.edu\pun\sys\files\fs\storage\home\user\NLP\Data\" + link[link.find('googlebooks-eng-all-5gram-20120701-'):]) 
        time.sleep(1) 
    line_count +=1

我或者得到一个错误消息“找不到”，表明我的目录存在问题；但是，当我使用本地目录时，仍然出现相同的错误或“在扫描字符串文字时停止运行”。我在想代码的URL部分有问题，但是我无法弄清楚它是什么。我已经坚持了好几天，可以解决我遇到的其他一些问题，但是我仍然无法成功运行它。

解决方法

暂无找到可以解决该程序问题的有效方法，小编努力寻找整理中！

如果你已经找到好的解决方法，欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@）

n-gram python screen-scraping

抓取Google Ngram数据

问题描述

解决方法

相关问答