抓取Google Ngram数据

问题描述

我需要刮掉所有英语5克(2012版)并将其存储在我大学的HPC服务器上。我尝试使用google_ngram_downloader的多个变体,但对我而言不起作用。它随机下载一个数据文件,而不是我要查找的所有5gram。相反,我使用的是这段代码

import requests
import urllib.request
import time
from bs4 import BeautifulSoup

url = 'http://storage.googleapis.com/books/ngrams/books/datasetsv2.html'
response = requests.get(url)

soup = BeautifulSoup(response.text,'html.parser')

soup.findAll('a')

one_a_tag = soup.findAll('a')[2217]
link = one_a_tag['href']

line_count = 1 #variable to track what line you are on
for one_a_tag in soup.findAll('a'):  #'a' tags are for links
    if line_count >= 2217 and line_count <= 2939: #text files starts at line X and ends at line Y
        download_url = link
        urllib.request.urlretrieve(download_url,"https:\portal.aci.ics.psu.edu\pun\sys\files\fs\storage\home\user\NLP\Data\" + link[link.find('googlebooks-eng-all-5gram-20120701-'):]) 
        time.sleep(1) 
    line_count +=1

我或者得到一个错误消息“找不到”,表明我的目录存在问题;但是,当我使用本地目录时,仍然出现相同的错误或“在扫描字符串文字时停止运行”。我在想代码的URL部分有问题,但是我无法弄清楚它是什么。我已经坚持了好几天,可以解决我遇到的其他一些问题,但是我仍然无法成功运行它。

解决方法

暂无找到可以解决该程序问题的有效方法,小编努力寻找整理中!

如果你已经找到好的解决方法,欢迎将解决方案带上本链接一起发送给小编。

小编邮箱:dio#foxmail.com (将#修改为@)

相关问答

Selenium Web驱动程序和Java。元素在(x,y)点处不可单击。其...
Python-如何使用点“。” 访问字典成员?
Java 字符串是不可变的。到底是什么意思?
Java中的“ final”关键字如何工作?(我仍然可以修改对象。...
“loop:”在Java代码中。这是什么,为什么要编译?
java.lang.ClassNotFoundException:sun.jdbc.odbc.JdbcOdbc...