NLP
NLP工具

体验腾讯 AI lab 最近发布的中文 word2vec 预训练 embeddings

# 简介

最近，腾讯AI lab的nlp组发布了他们最近训练的一个中文 word embedding，地址： https://ai.tencent.com/ailab/nlp/embedding.html

根据介绍，这份embedding语料具有以下特点：

覆盖广。包含了很多特定领域的词语，或者俚语，例如“喀拉喀什河”, “皇帝菜”, “不念僧面念佛面”, “冰火两重天”, “煮酒论英雄"
内容新。有很多流行的新词加入其中，例如“恋与制作人”, “三生三世十里桃花”, “打call”, “十动然拒”, “因吹斯汀”
更准确。采用了更大的语料来训练，使用了团队自己的训练算法，更能体现出语义信息。

# 下载地址

https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz

# 使用方法

下载得到一个 txt 文件，第一行是整个文件的词数，以及embedding的维度（200维），后面的每一行，开头是一个token，后面是词向量数值。

使用 gensim 可以直接加载这个文件。

from gensim.models.keyedvectors import KeyedVectors
file = './Tencent_AILab_ChineseEmbedding.txt'
wv = KeyedVectors.load_word2vec_format(file, binary=False)

1
2
3

由于腾讯这个实在太大了，解压后的txt文件有16G，所以读取要花很长时间。读取完成后，占用内存大概在12G左右。

可以将内存中的word vector直接以二进制形式保存到磁盘，下次直接读取二进制文件，速度快很多。

# 保存
wv.save('./word_vectors.bin')

# 读取
wv = KeyedVectors.load('./word_vectors.bin')

1
2
3
4
5

应用：https://codingcat.cn/article/37

上次更新: 2020/09/19, 22:09:00

← AI Challenger 2018 细粒度情感分析 Stanford CoreNLP 快速上手→