Dongxing's Wiki Dongxing's Wiki
首页
  • 剑指 Offer
  • LeetCode
  • 算法与数据结构
  • Python 语言
  • Web 开发
  • Hive
  • Elastic Search
  • 机器学习
  • NLP
  • 检索技术
  • 数据分析
  • 经验笔记
  • Linux 配置
  • 博客进化记
  • 杂谈
GitHub (opens new window)
首页
  • 剑指 Offer
  • LeetCode
  • 算法与数据结构
  • Python 语言
  • Web 开发
  • Hive
  • Elastic Search
  • 机器学习
  • NLP
  • 检索技术
  • 数据分析
  • 经验笔记
  • Linux 配置
  • 博客进化记
  • 杂谈
GitHub (opens new window)
  • NLP基础

    • 七月NLP课程笔记(1) NLP基础技能
    • 七月NLP课程笔记(2)朴素贝叶斯
    • 七月NLP课程笔记(3)-LDA主题模型
    • 七月NLP课程笔记(4)-基于统计的翻译
      • 双语语料
      • 预处理
      • 词对齐
      • 短语抽取
      • 进行翻译
      • 效果评价
      • 实际案例
    • 七月NLP课程笔记(5)-隐马尔科夫模型及其应用
    • 七月NLP课程笔记(6)-深度学习与NLP应用
    • 七月NLP课程笔记(7)-词向量与相关应用
    • 七月NLP课程笔记(8)-条件随机场
    • 中文分词相关技术
    • 使用gensim训练word2vec
    • 对话系统研究进展 - Paperweekly沙龙笔记
    • AI Challenger 2018 细粒度情感分析
  • NLP工具

    • 体验腾讯 AI lab 最近发布的中文 word2vec 预训练 embeddings
    • Stanford CoreNLP 快速上手
    • ParsCit 安装与使用
  • 知识图谱

    • 整理一些最近看的知识图谱资料
    • 知识图谱在金融业应用报告会笔记
    • DeepDive 中文 关系抽取实践
    • KBQA | Core Techniques of Question Answering Systems over Knowledge Bases: a Survey
  • NLP
  • NLP基础
anthony
2018-02-06
目录

七月NLP课程笔记(4)-基于统计的翻译

# 双语语料

需要使用平行语料进行训练,例如,逐行对应的中文和英文语句(字幕组中英字幕等)

# 预处理

ref: http://blog.csdn.net/han_xiaoyang/article/details/10273221

滤除某些内容 滤除数字、日期、时间、网址等没有什么翻译意义的内容,可通过正则表达式进行处理。 中文分词 中文需要进行分词,可以采用传统基于词典的正向最大匹配法,来进行中文分词。 英文分词 英文主要是将大写字母改为小写字母等标准化,将某些标点符号与单词之间用空格分开。

# 词对齐

ref: http://blog.csdn.net/han_xiaoyang/article/details/10283995

不同语言之间的句子结构和语序都是不一样的,例如 今天天气真好 The weather is good today,需要对每一句话进行处理,做一个词对齐的操作,即额外记录下两种语言中同一个词的位置对应关系。

词对齐可使用GIZA++工具(是自动的过程,主要思想是观察发现两个词经常一起出现,则认为他们可以对应,参照 http://blog.csdn.net/dark_scope/article/details/8774000 ),GIZA++生成的是两个单向的词对齐结果(例如,中to英,英to中),可通过自己的方法进行词对齐对称化,即将两个单向的结果合并成双向的。

# 短语抽取

ref: http://blog.csdn.net/han_xiaoyang/article/details/10298821 http://blog.csdn.net/han_xiaoyang/article/details/10299787

仅仅有词与词的对应是不够的,需要更进一步抽取短语之间的对应,然后构建短语转移的概率。 通过这一步,得到了某个短语有多大概率翻译成另外语言中的某个短语。

# 进行翻译

ref: http://www.doc88.com/p-6751596228169.html

进行翻译的目标是,根据各种词和短语的对应关系,找出一种出现的可能性最大的翻译方式。 其中,有三个组成部分:①翻译模型:即上面某个短语翻译成另外语言中的某个短语的概率,②调序模型:即需要适当调整翻译后的语序,③语言模型,即n元组,看看翻译后的语言是否是通顺自然的表达。

上面过程可以生成翻译模型和调序模型,语言模型可通过其他方式生成。

通过beam search的方式,简化穷举的个数,避免过大的计算。

# 效果评价

BLEU http://blog.csdn.net/qq_31584157/article/details/77709454

# 实际案例

东北大学 NiuTrans统计机器翻译系统 参照其各个步骤,可以了解一下如何制作一个基于统计的翻译系统。 http://nlplab.com/NiuPlan/NiuTrans.ch.html http://nlplab.com/NiuPlan/NiuTrans.Phrase.ch.html

上次更新: 2022/11/11, 2:11:00
七月NLP课程笔记(3)-LDA主题模型
七月NLP课程笔记(5)-隐马尔科夫模型及其应用

← 七月NLP课程笔记(3)-LDA主题模型 七月NLP课程笔记(5)-隐马尔科夫模型及其应用→

Theme by Vdoing | Copyright © 2017-2023 anthony 京ICP备17072417-3
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式