NLP
NLP基础

七月NLP课程笔记(2)朴素贝叶斯

1）上 http://blog.csdn.net/han_xiaoyang/article/details/50616559 主要包括：贝叶斯公式垃圾邮件识别问题分词条件独立假设如何处理重复词语处理停用词和关键词平滑的概念

2）下 http://blog.csdn.net/han_xiaoyang/article/details/50629587 主要包括：工程上常用的一些tricks（实用~）：取对数、权重、topk、位置权重、分割样本、垃圾邮件取材蜜罐贝叶斯方法的思维方式——转化另一些应用：褒贬情感分析、拼写纠错

3）一个案例 http://blog.csdn.net/qq_19707521/article/details/79091508 完成语言分类器（多分类问题），即识别出一段文字的语言。主要学习用sklearn中自带的train_test_split划分、去掉噪声、抽取特征、以及进行fit和predict

4）N-gram语言模型 http://blog.csdn.net/han_xiaoyang/article/details/50646667 之前都是假设每个词之间独立，但可以更加合理地考虑上下文 n-gram是什么 n-gram的实际应用（词性标注、垃圾邮件、中文分词、机器翻译和语音识别）几种平滑技术此外，提到了一个专门用于生成语言模型的库，易于使用且速度和效果较好，提供了python接口 https://github.com/kpu/kenlm

上次更新: 2020/09/19, 22:09:00

← 七月NLP课程笔记(1) NLP基础技能七月NLP课程笔记(3)-LDA主题模型→