word2vec及其python实现

　　词的向量化就是将自然语言中的词语映射成是一个实数向量，用于对自然语言建模，比如进行情感分析、语义分析等自然语言处理任务。下面介绍比较主流的两种词语向量化的方式：

　　第一种即One-Hot编码，，是一种基于词袋(bag of words)的编码方式。假设词典的长度为 N 即包含 N 个词语，并按照顺序依次排列。One-Hot 编码将词语表示成长度为 N 的向量，每一向量分量代表词典中的一个词语，则 One-Hot 编码的词语向量只有一位分量值为 1。假设词语在词典中的位置为 k，那么该词语基于 One-Hot 编码的词语向量可表示为第 k 位值为 1，其他位全为 0 的向量。这种方式很容易理解，比如：
　　假设我们有词典{今天，我，不想，去，上课，因为，我，是，小宝宝}，那么句子“今天我不想去上课”就可以表示为”[1,1,0],“因为我是小宝宝”就可以表示为[0,1]。这种编码方式简单明了。但是也具有明显的问题：

未能考虑词语之间的位置顺序关系；
无法表达词语所包含的语义信息；
无法有效地度量两个词语之间的相似度；
具有维度灾难。

首先，我们最后得到的向量只能表示每个词语的存在关系，比如[1,0]不仅可以表示“今天我不想去上课”，还可以表示“我不想今天去上课”，这种词语位置顺序的差别有时带来的灾难是巨大了，甚至会出现“我是你爸爸”和“你是我爸爸”傻傻分不清楚的现象；此外，我们这个粗糙的模型将每个词语都看成是对等的位置，主谓宾定状补完全分不开，语义信息完全被掩藏了；当词典过大时也会带来纬度灾难，我们可能用到的词语或许成千上万个，我们采用成千上万维度的向量来表示一个简简单单的句子显然是不明智的。

　　第二种是word2vec。该模型是以无监督方式从海量文本语料中学习富含语义信息的低维词向量的语言模型，word2vec 词向量模型将单词从原先所属的空间映射到新的低维空间，使得语义上相似的单词在该空间内距离相近，word2vec 词向量可以用于词语之间相似性度量，由于语义相近的词语在向量山空间上的分布比较接近，可以通过计算词向量间的空间距离来表示词语间的语义相似度，因此 word2vec 词向量具有很好的语义特性。word2vec 模型是神经网络在自然语言处理领域应用的结果，它是利用深度学习方法来获取词语的分布表示，可以用于文本分类、情感计算、词典构建等自然语言处理任务。

　　简单的举个例子，“老师”之于“学生”类似于“师父”之于“徒弟”，“老婆”之于“丈夫”类似于“女人”之于“男人”。

　　word2vec 包含两种训练模型，分别是连续词袋模型 CBOW 和 Skip-gram 模型。其中CBOW 模型是在已知词语 W(t)上下文 2n 个词语的基础上预测当前词 W(t)；而 Skip-gram模型是根据词语 W(t)预测上下文 2n 个词语。假设 n=2，则两种训练模型的体系结构如图所示，Skip-gram 模型和连续词袋模型 CBOW 都包含输入层、投影层、输出层。

（左边为Skip-gram模型，右边为CBOW模型）

　　假设语料库中有这样一句话"The cat jumped over the puddle"，以 Skip-gram模型为例，它是要根据给定词语预测上下文。如果给定单词"jumped"时，Skip-gram 模型要做的就是推出它周围的词："The"， "cat"， "over"， "the"， "puddle"，如图所示。

　　要实现这样的目标就要让如公式1的条件概率值达到最大，也即在给定单词 W(t) 的前提下，使单词 W(t)周围窗口长度为 2n 内的上下文的概率值达到最大。为了简化计算，将公式1转化为公式2，即求公式2的最小值。

　　CBOW 模型和上面差不多，仅仅是将条件概率的前后两项颠倒了个，它是要根据上下文预测目标词语出现的概率。如给定上下文"The"， "cat"， "over"， "the"， "puddle"，CBOW 模型的目标是预测词语"jumped"出现的概率，如图所示：

要实现这样的目标就要让如公式3的条件概率值达到最大，即在给定单词 W(t)上下文 2n 个词语的前提下，使单词 W(t)出现的概率值达到最大，同样为了简化计算，将公式3转化为公式4，即求公式4的最小值。

　　我们接下来会在pycharm中演示word2vec，这里首先要选取语料库，我从网上下载了一份三国演义的原文，并进行了中文分词处理，采用的是jieba库。

 1 import jieba.analyse
 2  codecs
 3 
 4 f=codecs.open('F:/nlp/SanGuoYanYi.txt','r',encoding="utf8")
 5 target = codecs.open("F:/nlp/gushi.txt",'w',1)"> 6 
 7 print('open files' 8 line_num=1
 9 line = f.readline()
10 
11 #循环遍历每一行，并对这一行进行分词操作
12 #如果下一行没有内容的话，就会readline会返回-1，则while -1就会跳出循环
13 while line:
14     print('---- processing ',line_num,' article----------------'15     line_seg = " ".join(jieba.cut(line))
16     target.writelines(line_seg)
17     line_num = line_num + 1
18     line =19 
20 #关闭两个文件流，并退出程序
21 f.close()
22 target.close()
23 exit()

　　我们在上面的代码中进行了分词处理，得到类似下面的txt文档：

　　滚滚长江东逝水，浪花淘尽英雄。是非成败转头空。青山依旧在，几度夕阳红。白发渔樵江渚上，惯看秋月春风。一壶浊酒喜相逢。古今多少事，都付笑谈中。

— — 调寄《临江仙》

话说天下大势，分久必合，合久必分。周末七国分争，并入于秦。及秦灭之后，楚、汉分争，又并入于汉。汉朝自高祖斩白蛇而起义，一统天下，后来光武中兴，传至献帝，遂分为三国。推其致乱之由，殆始于桓、灵二帝。桓帝禁锢善类，崇信宦官。及桓帝崩，灵帝即位，大将军窦武、太傅陈蕃，共相辅佐。时有宦官曹节等弄权，窦武、陈蕃谋诛之，机事不密，反为所害，中涓自此愈横。

建宁二年四月望日，帝御温德殿。方升座，殿角狂风骤起。只见一条大青蛇，从梁上飞将下来，蟠于椅上。帝惊倒，左右急救入宫，百官俱奔避。须臾，蛇不见了。忽然大雷大雨，加以冰雹，落到半夜方止，坏却房屋无数。建宁四年二月，洛阳地震；又海水泛溢，沿海居民，尽被大浪卷入海中。光和元年，雌鸡化雄。六月朔，黑气十余丈，飞入温雄殿中。秋七月，有虹现于玉堂；五原山岸，尽皆崩裂。种种不祥，非止一端。帝下诏问群臣以灾异之由，议郎蔡邕上疏，以为霓堕鸡化，乃妇寺干政之所致，言颇切直。帝览奏叹息，因起更衣。曹节在后窃视，悉宣告左右；遂以他事陷邕于罪，放归田里。后张让、赵忠、封谞、段珪、曹节、侯览、蹇硕、程旷、夏恽、郭胜十人朋比为奸，号为 “ 十常侍 ” 。帝尊信张让，呼为 “ 阿父 ” 。朝政日非，以致天下人心思乱，盗贼蜂起。

时巨鹿郡有兄弟三人，一名张角，一名张宝，一名张梁。那张角本是个不第秀才，因入山采药，遇一老人，碧眼童颜，手执藜杖，唤角至一洞中，以天书三卷授之，曰： “ 此名《太平要术》，汝得之，当代天宣化，普救世人；若萌异心，必获恶报。 ” 角拜问姓名。老人曰： “ 吾乃南华老仙也。 ” 言讫，化阵清风而去。角得此书，晓夜攻习，能呼风唤雨，号为 “ 太平道人 ” 。中平元年正月内，疫气流行，张角散施符水，为人治病，自称 “ 大贤良师 ” 。角有徒弟五百余人，云游四方，皆能书符念咒。次后徒众日多，角乃立三十六方，大方万余人，小方六七千，各立渠帅，称为将军；讹言： “ 苍天已死，黄天当立；岁在甲子，天下大吉。 ” 令人各以白土，书 “ 甲子 ” 二字于家中大门上。青、幽、徐、冀、荆、扬、兖、豫八州之人，家家侍奉大贤良师张角名字。角遣其党马元义，暗赍金帛，结交中涓封谞，以为内应。角与二弟商议曰： “ 至难得者，民心也。今民心已顺，若不乘势取天下，诚为可惜。 ” 遂一面私造黄旗，约期举事；一面使弟子唐周，驰书报封谞。唐周乃径赴省中告变。帝召大将军何进调兵擒马元义，斩之；次收封谞等一干人下狱。张角闻知事露，星夜举兵，自称 “ 天公将军 ” ，张宝称 “ 地公将军 ” ，张梁称 “ 人公将军 ” 。申言于众曰： “ 今汉运将终，大圣人出。汝等皆宜顺天从正，以乐太平。 ” 四方百姓，裹黄巾从张角反者四五十万。贼势浩大，官军望风而靡。何进奏帝火速降诏，令各处备御，讨贼立功。一面遣中郎将卢植、皇甫嵩、朱俊，各引精兵、分三路讨之。

且说张角一军，前犯幽州界分。幽州太守刘焉，乃江夏竟陵人氏，汉鲁恭王之后也。当时闻得贼兵将至，召校尉邹靖计议。靖曰： “ 贼兵众，我兵寡，明公宜作速招军应敌。 ” 刘焉然其说，随即出榜招募义兵。

榜文行到涿县，引出涿县中一个英雄。那人不甚好读书；性宽和

　　基于上面已经处理好的文档，我们进行word2vec的词向量训练：

# -*- coding: utf-8 -*-


from gensim.models  Word2Vec
from gensim.models.word2vec  LineSentence
 logging

logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',level=logging.INFO)

    # Word2Vec第一个参数代表要训练的语料
    # sg=1 表示使用Skip-Gram模型进行训练
    # size 表示特征向量的维度，默认为100。大的size需要更多的训练数据,但是效果会更好. 推荐值为几十到几百。
    # window 表示当前词与预测词在一个句子中的最大距离是多少
    # min_count 可以对字典做截断. 词频少于min_count次数的单词会被丢弃掉,默认值为5
    # workers 表示训练的并行数
    #sample: 高频词汇的随机降采样的配置阈值，默认为1e-3，范围是(0,1e-5)

def A():
    #首先打开需要训练的文本
    shuju = open('F:/nlp/gushi.txt','rb')
    #通过Word2vec进行训练
    model = Word2Vec(LineSentence(shuju),sg=1,size=100,window=10,min_count=5,workers=15,sample=1e-3)
    #保存训练好的模型
    model.save('F:/nlp/SanGuoYanYiTest.word2vec')

    print('训练完成')

if __name__ == '__main__':
    A()

　　显示“训练完成”后我们就得到了一个完好的模型，输出和“赤兔马”最相关的词语，以及其词向量，测试结果如下：

word2vec及其python实现

相关文章