七月NLP课程笔记(2)朴素贝叶斯
1)上 http://blog.csdn.net/han_xiaoyang/article/details/50616559 主要包括: 贝叶斯公式 垃圾邮件识别问题 分词 条件独立假设 如何处理重复词语 处理停用词和关键词 平滑的概念
2)下 http://blog.csdn.net/han_xiaoyang/article/details/50629587 主要包括: 工程上常用的一些tricks(实用~):取对数、权重、topk、位置权重、分割样本、垃圾邮件取材蜜罐 贝叶斯方法的思维方式——转化 另一些应用:褒贬情感分析、拼写纠错
3)一个案例 http://blog.csdn.net/qq_19707521/article/details/79091508 完成语言分类器(多分类问题),即识别出一段文字的语言。 主要学习用sklearn中自带的train_test_split划分、去掉噪声、抽取特征、以及进行fit和predict
4)N-gram语言模型 http://blog.csdn.net/han_xiaoyang/article/details/50646667 之前都是假设每个词之间独立,但可以更加合理地考虑上下文 n-gram是什么 n-gram的实际应用(词性标注、垃圾邮件、中文分词、机器翻译和语音识别) 几种平滑技术 此外,提到了一个专门用于生成语言模型的库,易于使用且速度和效果较好,提供了python接口 https://github.com/kpu/kenlm
上次更新: 2020/09/19, 22:09:00