NLP笔记-从HMM到CRF

 

通过收集大量有标注的语料,估算状态转移概率和发射概率

 

HMM如何做词性标注

 

 

 最笨的办法是穷举y来求P(x,y)的最大值,但是计算次数太多,所以通过维特比算法解这个问题

 

 但是HMM有问题,加入y*是最优解,它并不能总是保证p(x,y*)>=p(x,y),比如在这个图里,如果要算N->?->a,按照HMM,?应该是V,但是在训练集中根本没有出现过N->V->a,反而出现过

 N->D->a,所以最优解应该是D不是V。但是在训练数据少的时候,这反而是一个优点

CRF的概率用神经网络算,虽然看起来和HMM完全不一样,但是实际上一样

 

 

 

 上图中的logP(x|y)看着不好理解,下面举个例子

 

 

 所以logP(x|y)可以写成这样

 

 

 

CRF的训练,用梯度上升

 

相关文章

python方向·数据分析   ·自然语言处理nlp   案例:中...
原文地址http://blog.sina.com.cn/s/blog_574a437f01019poo....
ptb数据集是语言模型学习中应用最广泛的数据集,常用该数据集...
 Newtonsoft.JsonNewtonsoft.Json是.Net平台操作Json的工具...
NLP(NaturalLanguageProcessing)自然语言处理是人工智能的一...
做一个中文文本分类任务,首先要做的是文本的预处理,对文本...