体验腾讯 AI lab 最近发布的中文 word2vec 预训练 embeddings
# 简介
最近,腾讯AI lab的nlp组发布了他们最近训练的一个中文 word embedding,地址: https://ai.tencent.com/ailab/nlp/embedding.html
根据介绍,这份embedding语料具有以下特点:
- 覆盖广。包含了很多特定领域的词语,或者俚语,例如“喀拉喀什河”, “皇帝菜”, “不念僧面念佛面”, “冰火两重天”, “煮酒论英雄"
- 内容新。有很多流行的新词加入其中,例如“恋与制作人”, “三生三世十里桃花”, “打call”, “十动然拒”, “因吹斯汀”
- 更准确。采用了更大的语料来训练,使用了团队自己的训练算法,更能体现出语义信息。
# 下载地址
https://ai.tencent.com/ailab/nlp/data/Tencent_AILab_ChineseEmbedding.tar.gz
# 使用方法
下载得到一个 txt 文件,第一行是整个文件的词数,以及embedding的维度(200维),后面的每一行,开头是一个token,后面是词向量数值。
使用 gensim 可以直接加载这个文件。
from gensim.models.keyedvectors import KeyedVectors
file = './Tencent_AILab_ChineseEmbedding.txt'
wv = KeyedVectors.load_word2vec_format(file, binary=False)
1
2
3
2
3
由于腾讯这个实在太大了,解压后的txt文件有16G,所以读取要花很长时间。读取完成后,占用内存大概在12G左右。
可以将内存中的word vector直接以二进制形式保存到磁盘,下次直接读取二进制文件,速度快很多。
# 保存
wv.save('./word_vectors.bin')
# 读取
wv = KeyedVectors.load('./word_vectors.bin')
1
2
3
4
5
2
3
4
5
应用:https://codingcat.cn/article/37
上次更新: 2020/09/19, 22:09:00