自然语言处理

【劝退贴】学人工智能？你想好了吗？

所以一句话，你觉得自己真的优秀且喜欢，大胆的上，基础学科需要真正优秀的人才，只是我估计我等大部分普通人，还是可远观不可亵玩，高岭之花慎重采撷，需要考虑

Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension over MultipleDocuments论文笔记

Select, Answer and Explain: Interpretable Multi-hop Reading Comprehension o

SimCSE 对比学习方法

某厂四面技术面面试过程问到了SimCSE，遂记录一下，补个漏

ViT源码讲解

ViT模型源码

【CC3200AI 实验教程16】疯壳·AI语音人脸识别会议记录仪/人脸打卡机-AI人脸图像采集

【CC3200AI 实验教程16】疯壳·AI语音人脸识别（会议记录仪/人脸打卡机）-AI人脸图像采集

图神经网络时间序列预测,时间序列神经网络预测

关于深度神经网络模型的相关学习，推荐CDA数据师的相关课程，课程以项目调动学员数据挖掘实用能力的场景式教学为主，在讲师设计的业务场景下由讲师不断提出业

Transformer的PE(position embedding),即位置编码理解

假设单词嵌入并且组成batch后，shape为(b,N,254)，N是序列最大长度，即最长的一句话包含的单词个数为N，254是每个单词的嵌入向量长度,

行业洞察 | 机器翻译何时能够达到可言传，可意会的境界？

机器翻译的效果显著进步，但是尚未达到能够对需要翻译的语言“心领神会”的地步。

文本序列化

pytorch实现文本序列化

NLP--优化器(Optimizer)总结【分析】

机器学习与深度学习中优化器的分析

读论文笔记1：Text Smoothing: Enhance Various Data Augmentation Methods on Text Classification Tasks

ACL 2022 数据增强

BERT详解：概念、原理与应用

对bert的原理，结构，预训练过程进行介绍

深度学习【NLP介绍、文本情感分类案例】

就是通常所说的分词，分出的每一个词语把它称为token。jieba分词：https://github.com/fxsjy/jieba为了对前面的wor

20 行代码！带你快速构建基础文本搜索引擎 ⛵

本文使用tf-idf（词频-逆文件频率）、lsi（潜在语义索引）和 doc2vec(文档向量化嵌入)这3种最基础的NLP文档嵌入技术，对文本进行嵌入操

LarKC 大规模知识加速器

欧盟第7框架计划(FP7)的LarKC项目的目标是开发大规模知识加速器(LarKC，其发音为“lark”)，LarKC被设计为一个大规模分布式不完备推理平台，该平台用于突破语义万维网(Semantic Web)推理系统目前面临的知识处理规

Salad 回文构词法

Salad 是一种有效且灵活的实现著名的异常检测方法回文构词法王et al . 2006(RAID)。Salad

multilanguage 多语开发工具包

multilanguage 是一个多语开发工具包，用于缓存多语系统的多语值，它拥有良好的性能，并且能防止内存泄露。

Go Cortex

go-cortex 是一个服务，通过倾听你的句子，并视图理解你的意思，然后执行相应的动作。它使用 Wit.ai

DKPro Core

DKPro Core 是基于 Apache UIMA 框架之上的自然语言处理（NLP）的软件组件。DKPro Core 提供了这样的第三方工具以及原NLP组件的包装。

NLTK 自然语言工具包

NLTK 会被自然地看作是具有栈结构的一系列层，这些层构建于彼此基础之上。那些熟悉人工语言（比如

ERNIE 基于持续学习的语义理解预训练框架

ERNIE 是基于持续学习的语义理解预训练框架，使用多任务学习增量式构建预训练任务。

Algorithm research AC 编译及使用方法实例1返回值实例2返回值

Algorithm research 基于 AC 有限状态自动状态机的过滤服务。 AC 编译及使用方法 1. 编译之前请先确认安装好 libevent

spaCy 自然语言文本处理库

spaCy 是一个 Python 和 CPython 的 NLP 自然语言文本处理库。示例代码： >>> import spacy.en

Lango 自然语言处理库

Lango 是自然语言处理库，类似乐高游戏，可以把各个语言块构建在一起工作。

SyntaxNet 全球最精准自然语言解析器

SyntaxNet 是一个框架，即学术圈所指的SyntacticParser，他是许多NLU系统中的关键组件。在这个系统中输入一个句子，他会自动给句子中的每一个单词

FudanNLP 中文自然语言处理工具包

FudanNLP主要是为中文自然语言处理而开发的工具包，也包含为实现这些任务的机器学习算法和数据集。

HanLP 自然语言处理

HanLP: Han Language Processing 汉语言处理包 HanLP 是由一系列模型与算法组成的 Java 工具包，目标是普及自然语言处理在生产环境中的应用。HanLP

TextTeaser 文本自动摘要工具

TextTeaser是一个自动摘要算法,结合了自然语言处理的力量和机器学习产生好结果。

simhash simhash算法库

专门针对中文文档的simhash算法库简介此项目用来对中文文档计算出对应的 simhash 值。 simhash 是谷歌用来进行文本去重的算法，现在广泛应用在文本处理中。

Lacona JavaScript 语言解析器

Lacona 是语言无关的 JavaScript 语言解析器。Lacona 可以根据一个任意但是定义良好的模式来预测自然语言。也就是说，你告诉 Lacona

UBY 自然语言处理

UBY是一个大规模的统一的文章资源,为自然语言处理(NLP)基于ISO标准词汇标记框架(LMF)。

CRF++ 自然语言处理工具

CRF是著名的条件随机场开源工具，也是目前综合性能最佳的CRF工具。CRF本身已经是个比较老的工具了，但鉴于其性能较好，仍然是自然语言处理很重要的一个工具。

OpenNLP 自然语言处理工具

OpenNLP 是一个机器学习工具包，用于处理自然语言文本。支持大多数常用的 NLP 任务，例如：标识化、句子切分、部分词性标注、名称抽取、组块、解析等。

LingPipe Java自然语言处理

LingPipe是一个自然语言处理的Java开源工具包。LingPipe目前已有很丰富的功能，包括主题分类（Top

word2vec 单词转换成向量形式

word2vec（word to vector）是一个将单词转换成向量形式的工具。可以把对文本内容的处理简化为向量空间中的向量运算，计算出向量空间上的相似度，来表示文本语义上的相似度。word2vec为计算向量词提供了一种有效的

DKPro WSD

DKPro WSD 提供 UIMA 组件，封装了语料库注释器，词汇语义资源，WSD 算法，评估和报告工具。用户可以配置组件，或者重写和安排它们到数据处理管道。DKPro WSD