Dongxing's Wiki Dongxing's Wiki
首页
  • 剑指 Offer
  • LeetCode
  • 算法与数据结构
  • Python 语言
  • Web 开发
  • Hive
  • Elastic Search
  • 机器学习
  • NLP
  • 检索技术
  • 数据分析
  • 经验笔记
  • Linux 配置
  • 博客进化记
  • 杂谈
GitHub (opens new window)
首页
  • 剑指 Offer
  • LeetCode
  • 算法与数据结构
  • Python 语言
  • Web 开发
  • Hive
  • Elastic Search
  • 机器学习
  • NLP
  • 检索技术
  • 数据分析
  • 经验笔记
  • Linux 配置
  • 博客进化记
  • 杂谈
GitHub (opens new window)
  • NLP基础

    • 七月NLP课程笔记(1) NLP基础技能
    • 七月NLP课程笔记(2)朴素贝叶斯
    • 七月NLP课程笔记(3)-LDA主题模型
    • 七月NLP课程笔记(4)-基于统计的翻译
    • 七月NLP课程笔记(5)-隐马尔科夫模型及其应用
    • 七月NLP课程笔记(6)-深度学习与NLP应用
    • 七月NLP课程笔记(7)-词向量与相关应用
    • 七月NLP课程笔记(8)-条件随机场
    • 中文分词相关技术
    • 使用gensim训练word2vec
    • 对话系统研究进展 - Paperweekly沙龙笔记
    • AI Challenger 2018 细粒度情感分析
  • NLP工具

    • 体验腾讯 AI lab 最近发布的中文 word2vec 预训练 embeddings
    • Stanford CoreNLP 快速上手
    • ParsCit 安装与使用
  • 知识图谱

    • 整理一些最近看的知识图谱资料
    • 知识图谱在金融业应用报告会笔记
    • DeepDive 中文 关系抽取实践
    • KBQA | Core Techniques of Question Answering Systems over Knowledge Bases: a Survey
  • NLP
  • NLP基础
anthony
2018-01-20

七月NLP课程笔记(2)朴素贝叶斯

1)上 http://blog.csdn.net/han_xiaoyang/article/details/50616559 主要包括: 贝叶斯公式 垃圾邮件识别问题 分词 条件独立假设 如何处理重复词语 处理停用词和关键词 平滑的概念

2)下 http://blog.csdn.net/han_xiaoyang/article/details/50629587 主要包括: 工程上常用的一些tricks(实用~):取对数、权重、topk、位置权重、分割样本、垃圾邮件取材蜜罐 贝叶斯方法的思维方式——转化 另一些应用:褒贬情感分析、拼写纠错

3)一个案例 http://blog.csdn.net/qq_19707521/article/details/79091508 完成语言分类器(多分类问题),即识别出一段文字的语言。 主要学习用sklearn中自带的train_test_split划分、去掉噪声、抽取特征、以及进行fit和predict

4)N-gram语言模型 http://blog.csdn.net/han_xiaoyang/article/details/50646667 之前都是假设每个词之间独立,但可以更加合理地考虑上下文 n-gram是什么 n-gram的实际应用(词性标注、垃圾邮件、中文分词、机器翻译和语音识别) 几种平滑技术 此外,提到了一个专门用于生成语言模型的库,易于使用且速度和效果较好,提供了python接口 https://github.com/kpu/kenlm

上次更新: 2020/09/19, 22:09:00
七月NLP课程笔记(1) NLP基础技能
七月NLP课程笔记(3)-LDA主题模型

← 七月NLP课程笔记(1) NLP基础技能 七月NLP课程笔记(3)-LDA主题模型→

Theme by Vdoing | Copyright © 2017-2023 anthony 京ICP备17072417-3
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式