Python下载PTB数据集的方法附NLP常用数据集

ptb数据集是语言模型学习中应用最广泛的数据集,常用该数据集训练RNN神经网络作为语言预测,tensorflow对于ptb数据集的读取也定义了自己的函数库用于读取,在python 1.0定义了models文件用于导入ptb库函数,然而当python升级后,导入models文件时就会出现:ModuleNotFountError错误,这时需要靠自己下载导入,github上有人共享了models文件,但是不清楚如何安装,网上教程很多,但是安装了还有很多的错误,本人捣鼓了一天算将其成功导入,因此写成教程,可以不用下载低版本tensorflow,注意:该教程适用于linux系统下tensorflow。

步骤1:在低版本tensorflow中,导入ptb库的语句为“from tensorflow.models.rnn.ptb import reader”,其形式与导入mnist库一样,因此我们需要查找安装models库的位置,在命令行中输入:

 locate tensorflow/examples/tutorials

此时将会显示出有上面路径的文件,找到路径*/tensorflow/examples/tutorials/mnist,此时路径*/tensorflow就是我们安装models的路径,用cd命令进入该文件。

步骤2:进入上面tensorflow文件后,用git下载models文件夹,在命令行中输入命令:

git clone –recurse-submoduleshttps://github.com/tensorflow/models

如果没有安装git,请自行百度如何安装git

步骤3:此时运行含有语句“from tensorflow.models.rnn.ptb import reader”还是会出错,主要是因为下载的文件内容与低版本的库有一定区别,可以逐步进入路径“*/tensorflow/models”发现,没有文件rnn,rnn文件存在与路径“*/tensorflow/models/tutorials/”文件下,因此我们需要将该语句改成

“from tensorflow.models.tutorials.rnn.ptb import reader”

步骤4:此时还会出错,提示ModuleNotFoundError:No module name ‘reader’,此时我们需要对ptb中的__init__.py文件进行修改,将该文件中的“import reader”修改成“from tensorflow.models.tutorials.rnn.ptb import reader”,还有将“import util”修改成“from tensorflow.models.tutorials.rnn.ptb import util” 此时再次运行程序,将成功导入ptb

 

Treebanks and annotated corpus useful for training POS tagger, parser etc
Penn Treebank http://www.cis.upenn.edu/~treebank/home.html
WSJ Corpus https://catalog.ldc.upenn.edu/LDC2000T43
NEGRA German corpus http://www.coli.uni-saarland.de/projects/sfb378/negra-corpus/
Tiger corpus http://www.ims.uni-stuttgart.de/projekte/TIGER/TIGERCorpus/
alpino Treebank http://odur.let.rug.nl/~vannoord/trees/
Bultreebank http://www.bultreebank.org/
Turin University Treebank http://www.di.unito.it/~tutreeb/
prague dependency Treebank http://ufal.mff.cuni.cz/pdt2.0/

Semantic relation annotated corpus
propbank 
Nombank http://nlp.cs.nyu.edu/meyers/NomBank.html
framenet http://framenet.icsi.berkeley.edu/
salsa http://www.coli.uni-saarland.de/projects/salsa/page.php?id=index

Text classification corpus
Reuters dataset http://www.daviddlewis.com/resources/testcollections/reuters21578/
news group datasets http://people.csail.mit.edu/jrennie/20Newsgroups/

Parallel corpus used in machine translation
EMILE http://www.lancs.ac.uk/fass/projects/corpus/emille/
Text summarization

DUC-2001, 2002, 2003, 2004, 2005, 2006, 2007 http://www-nlpir.nist.gov/projects/duc/data.html
TAC-2008, 2009, 2010, 2011, 2012, 2013, 2014, 2015 http://tac.nist.gov/data/
Gigawords https://catalog.ldc.upenn.edu/LDC2012T21
LCSTS http://icrc.hitsz.edu.cn/Article/show/139.html
Machine Reading

CNN http://datasets.maluuba.com/NewsQA
Microsoft https://arxiv.org/abs/1611.09268
Microsoft Marco http://www.msmarco.org/
SQuAD https://www.aclweb.org/anthology/D16-1264
Others
TREC
SemEval http://alt.qcri.org/semeval2017/index.php?id=tasks
Microsoft COCO: http://mscoco.org/
 

相关文章

python方向·数据分析   ·自然语言处理nlp   案例:中...
原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo....
ptb数据集是语言模型学习中应用最广泛的数据集,常用该数据集...
 Newtonsoft.JsonNewtonsoft.Json是.Net平台操作Json的工具...
NLP(NaturalLanguageProcessing)自然语言处理是人工智能的一...
做一个中文文本分类任务,首先要做的是文本的预处理,对文本...