七月NLP课程笔记(8)-条件随机场
# 生成式模型/判别式模型
一句话:生成模型使用联合概率建模,判别模型直接使用条件概率建模。
简单地说,对于监督学习,预测时,一般都是在求p(Y|X)
生成模型: 从数据中学习联合概率分布p(X,Y),然后利用贝叶斯公式求:p(Y|X) = p(X,Y) / ∑(X, Yi) ; 这类典型的模型包括:朴素贝叶斯、LDA、HMM
判别模型:直接学习p(Y|X), 它直观输入什么特征X,就直接预测出最可能的; 典型的模型包括:LR, SVM,CRF,Boosting,Decision tree....
生成模型是模拟这个结果是如何产生的,然后算出产生各个结果的概率。 判别模型是发现各个结果之间的不同,不关心产生结果的过程。
more: https://www.zhihu.com/question/20446337/answer/256466823
# 最大熵模型
ref: https://www.cnblogs.com/KevinYang/archive/2009/02/01/1381798.html https://wenku.baidu.com/view/de5c860a79563c1ec5da71e2.html
# 条件随机场
ref: http://www.3dobe.com/archives/255/
CRF vs HMM: CRF使用任意的特征函数组用于得到标注得分(判别式),HMM采用生成方式进行标注(生成式)。可以对任意HMM,建立等价的CRF,CRF比HMM更强大一些。
每个HMM都存在某个对等的CRF。 但是,出于以下两个原因,CRF同样可以为更为丰富的标签分布建模:
CRF可以定义更加广泛的特征集。 而HMM在本质上必然是局部的(因为它只能使用二进制的转换与发射特征概率,导致每个词仅能依赖当前的标签,而每个标签仅依赖于上一个标签),而CRF就可以使用更加全局的特征。例如,在上文提到的词性标注特征中就有一个特征,如果句子的结尾包含问号,那么句子中的第一个字为动词(VERB)的概率会增加。
CRF可以有任意权重值。HMM的概率值必须满足特定的约束(例如,0<=p(wi|li)<=1,∑wp(wi=w|li)=1),而CRF没有限制(例如,logp(wi|li)可以是任意它想要的值)。
more: http://www.52nlp.cn/%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E5%85%A5%E9%97%A8%E4%B9%8B%E5%AD%97%E6%A0%87%E6%B3%A8%E6%B3%954 http://www.52nlp.cn/%E7%94%A8mecab%E6%89%93%E9%80%A0%E4%B8%80%E5%A5%97%E5%AE%9E%E7%94%A8%E7%9A%84%E4%B8%AD%E6%96%87%E5%88%86%E8%AF%8D%E7%B3%BB%E7%BB%9F