2022年必须要了解的20个开源NLP 库

在本文中,我列出了当今最常用的 NLP 库,并对其进行简要说明。它们在不同的用例中都有特定的优势和劣势,因此它们都可以作为专门从事 NLP 的优秀数据科学家备选方案。每个库的描述都是从它们的 GitHub 中提取的。

NLP库

以下是顶级库的列表,排序方式是在GitHub上的星数倒序。

1、Hugging Face Transformers

57.1k GitHub stars.

Transformers 提供了数千个预训练模型来执行不同形式的任务,例如文本、视觉和音频。这些模型可应用于文本(文本分类、信息提取、问答、摘要、翻译、文本生成支持超过 100 种语言)、图像(图像分类、对象检测和分割)和音频(语音识别和音频分类 )。Transformer 模型还可以结合多种模式执行任务,例如表格问答、OCR、从扫描文档中提取信息、视频分类和视觉问答。

2、spaCy

22.2k GitHub stars.spaCy是 Python 和 Cython 中用于自然语言处理的免费开源库。它从一开始就设计用于生产环境。spaCy 带有预训练的管道,目前支持 60 多种语言的标记化和训练。它具有最先进的神经网络模型,可以用于标记、解析、命名实体识别、文本分类、并且使用 BERT 等预训练Transformers进行多任务学习,可以对模型进行 打包、部署和工作,方便生产环境的部署。spaCy 是商业开源软件,在 MIT 许可下发布。

完整文章

https://www.overfit.cn/post/a95c29726cba4e3aa969066fb7c80ad5

相关文章

python方向·数据分析   ·自然语言处理nlp   案例:中...
原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo....
ptb数据集是语言模型学习中应用最广泛的数据集,常用该数据集...
 Newtonsoft.JsonNewtonsoft.Json是.Net平台操作Json的工具...
NLP(NaturalLanguageProcessing)自然语言处理是人工智能的一...
做一个中文文本分类任务,首先要做的是文本的预处理,对文本...