我正在使用 wikipidia 语料库 (17G) 和 python 语言来获取 n-gram 模型。我使用过 sklearn.feature_extraction.text.CountVectorizer 但它没有任何进度条或详细选项。有推荐的方法吗?
sklearn.feature_extraction.text.CountVectorizer
好的。解决方法很简单。编辑源代码,因为代码很容易理解。将 tqdm 添加到 for 循环中。