Dongxing's Wiki Dongxing's Wiki
首页
  • 剑指 Offer
  • LeetCode
  • 算法与数据结构
  • Python 语言
  • Web 开发
  • Hive
  • Elastic Search
  • 机器学习
  • NLP
  • 检索技术
  • 数据分析
  • 经验笔记
  • Linux 配置
  • 博客进化记
  • 杂谈
GitHub (opens new window)
首页
  • 剑指 Offer
  • LeetCode
  • 算法与数据结构
  • Python 语言
  • Web 开发
  • Hive
  • Elastic Search
  • 机器学习
  • NLP
  • 检索技术
  • 数据分析
  • 经验笔记
  • Linux 配置
  • 博客进化记
  • 杂谈
GitHub (opens new window)
  • NLP基础

    • 七月NLP课程笔记(1) NLP基础技能
    • 七月NLP课程笔记(2)朴素贝叶斯
    • 七月NLP课程笔记(3)-LDA主题模型
    • 七月NLP课程笔记(4)-基于统计的翻译
    • 七月NLP课程笔记(5)-隐马尔科夫模型及其应用
    • 七月NLP课程笔记(6)-深度学习与NLP应用
    • 七月NLP课程笔记(7)-词向量与相关应用
    • 七月NLP课程笔记(8)-条件随机场
    • 中文分词相关技术
    • 使用gensim训练word2vec
    • 对话系统研究进展 - Paperweekly沙龙笔记
    • AI Challenger 2018 细粒度情感分析
  • NLP工具

    • 体验腾讯 AI lab 最近发布的中文 word2vec 预训练 embeddings
      • 简介
      • 下载地址
      • 使用方法
    • Stanford CoreNLP 快速上手
    • ParsCit 安装与使用
  • 知识图谱

    • 整理一些最近看的知识图谱资料
    • 知识图谱在金融业应用报告会笔记
    • DeepDive 中文 关系抽取实践
    • KBQA | Core Techniques of Question Answering Systems over Knowledge Bases: a Survey
  • NLP
  • NLP工具
anthony
2018-10-29
目录

体验腾讯 AI lab 最近发布的中文 word2vec 预训练 embeddings

# 简介

最近,腾讯AI lab的nlp组发布了他们最近训练的一个中文 word embedding,地址: https://ai.tencent.com/ailab/nlp/embedding.html

根据介绍,这份embedding语料具有以下特点:

  • 覆盖广。包含了很多特定领域的词语,或者俚语,例如“喀拉喀什河”, “皇帝菜”, “不念僧面念佛面”, “冰火两重天”, “煮酒论英雄"
  • 内容新。有很多流行的新词加入其中,例如“恋与制作人”, “三生三世十里桃花”, “打call”, “十动然拒”, “因吹斯汀”
  • 更准确。采用了更大的语料来训练,使用了团队自己的训练算法,更能体现出语义信息。

# 下载地址

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz

# 使用方法

下载得到一个 txt 文件,第一行是整个文件的词数,以及embedding的维度(200维),后面的每一行,开头是一个token,后面是词向量数值。

使用 gensim 可以直接加载这个文件。

from gensim.models.keyedvectors import KeyedVectors
file = './Tencent_AILab_ChineseEmbedding.txt'
wv = KeyedVectors.load_word2vec_format(file, binary=False)
1
2
3

由于腾讯这个实在太大了,解压后的txt文件有16G,所以读取要花很长时间。读取完成后,占用内存大概在12G左右。

可以将内存中的word vector直接以二进制形式保存到磁盘,下次直接读取二进制文件,速度快很多。

# 保存
wv.save('./word_vectors.bin')

# 读取
wv = KeyedVectors.load('./word_vectors.bin')
1
2
3
4
5

应用:https://codingcat.cn/article/37

上次更新: 2020/09/19, 22:09:00
AI Challenger 2018 细粒度情感分析
Stanford CoreNLP 快速上手

← AI Challenger 2018 细粒度情感分析 Stanford CoreNLP 快速上手→

Theme by Vdoing | Copyright © 2017-2023 anthony 京ICP备17072417-3
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式