自然语言处理=======python利用word2vec实现计算词语相似度【gensim实现】_word2vec python-程序员宅基地

技术标签: 面试  算法  python  自然语言处理  职场和发展  

实验目的

1、要利用已训练过的词向量模型进行词语相似度计算,实验中采用的词向量模型已事先通过训练获取的。
2、于数据采用的是 2020 年特殊年份的数据,“疫情”是主要 话题。
3、在计算词语之间的相似度时,采用的词语与“疫情”相关



实验内容

1、加载已训练的词向量模型,直接调用 models.word2vec.Word2Vec.load 加载模型 wiki.model。
2、计算多种形式的词语相似度
3、model 计算不同方法下的词语相似度

**



实验步骤

**
1、加载模型,获得某个词的词向量
代码:

# TODO                鸟欲高飞,必先展翅
# TODO                 向前的人 :Jhon

import warnings


warnings.filterwarnings('ignore')
from gensim import models

model = models.word2vec.Word2Vec.load('wiki.model')

# TODO  步骤2.1  todo:获取某个词对应的词向量,了解词向量
word = '疫情' #注意:词库里面要有这个词,否则会报错
vector = model.wv[word] #获取单词的词向量
print('{}的词向量为:\n{}'.format(word,vector))

#  print(vector.shape())

print(len(vector))
print("-"*66)

截图:
在这里插入图片描述
由上面的代码我们可以得出和疫情相关的100个词的相似度。我们可以发现有的相似度大于80%,但有的却是负相关。Ok,下面我们来使用wv.similarity计算两个词语的余弦相似度


2、计算两个词语之间的相似度

# TODO                鸟欲高飞,必先展翅
# TODO                 向前的人 :Jhon
import warnings
warnings.filterwarnings('ignore')
from gensim import models
model = models.word2vec.Word2Vec.load('wiki.model')
# TODO  步骤2.1  todo:获取某个词对应的词向量,了解词向量
word = '疫情' #注意:词库里面要有这个词,否则会报错
vector = model.wv[word] #获取单词的词向量
print('{}的词向量为:\n{}'.format(word,vector))
print(len(vector))
print("-"*66)
# TODO  步骤2.2 todo:使用wv.similarity计算两个词语的余弦相似度
word1 = '疫情'
word2 = '新冠'
distance = model.wv.similarity(word1,word2)
print('%s与%s的相似度为:%.4f'%(word1,word2,distance))

截图:
在这里插入图片描述
可以得出疫情与新冠的相似度为:0.8392这个结论。所以当出现疫情的时候我们就会不加思考的想到新冠。


3、使用wv.n_similarity计算两个list之间的相似度

代码:
import warnings
warnings.filterwarnings('ignore')
from gensim import models
model = models.word2vec.Word2Vec.load('wiki.model')
# TODO  步骤2.3  使用wv.n_similarity计算两个list之间的相似度,返回单个值
# TODO  可以考察两个句子(先进行分词)之间的相似度
words_list1 = ['电脑', '现在', '不贵']
words_list2 = ['计算机', '便宜']
list_distant=model.wv.n_similarity(words_list1,words_list2)
print("%s与%s相似度为:%.4f" % (words_list1, words_list2, list_distant))

截图:
在这里插入图片描述

由上面的model模型中的wv.n_similarity计算两个list之间的相似度,[‘电脑’, ‘现在’, ‘不贵’]和[‘计算机’, ‘便宜’]之间的相似度为0.8281,很高的相似度了,与实际相符。



4、计算与一个词语最相似的前topn个词语

代码:

# TODO  步骤2.4 是同wv.most_similar 计算与某个词语最相似的词语
#  步骤2.4.1  使用要搜索的词和topn参数,计算与一个词语最相似的前topn个词语
top_n=8
word="疫情"
model_word=model.wv.most_similar(word,topn=top_n)
print('\n文本字典中与\"{}\"最相似的前{}个词语依次是'.format(word,top_n))
print([{
    "词语":item[0],"相似度":"%.5f"%item[1]} for item in model.wv.most_similar(word,topn=top_n)])

截图:
在这里插入图片描述

我们可以发现和疫情最相似的词语是冠状病毒。其次是病疫情,这应该是jieba分词的错误,第三个是新冠,和实际相符。


5、计算其他形式的词语相似度

~5.1、最相似的五个词

代码:

list_1 = ['中国', '华盛顿']
list_2 = ['北京']
topn = 5
model_word =model.wv.most_similar(positive=list_1,negative=list_2,topn=topn)
print('\n与\"{}---{}+{}\"最相似的前5个词语为'.format(list_1[0],list_2[0],list_1[1],topn))
for item in model_word:
    print(item[0],'%.4f'%item[1])

截图:
在这里插入图片描述

我们可以发现还是挺准的,说明这个模型还是挺成功的。达到预期效果。

~5.2、wv.doesnt_match 找出列表中不属于同一类的词语**

代码:

word_list=['北京','上海','广州','纽约']
Not_need_country=model.wv.doesnt_match(word_list)
print(r'{}中不属于同一类的词语为:{}'.format(word_list,Not_need_country))

截图:
在这里插入图片描述

我们可以发现模型中的wv的doesn’t_match方法找到列表国家中不是同一类的国家。

实验小结

我们计算其他形式的词语相似度,主要应用 model 的 most_similar 和 doesnt_match 方法来完成它。利用维基百科训练出来的模型效果还是比较理想的,可以计算出多种形式下的词语相似度。由于已训练的词向量模型采用的是 2020 年 8 月 5 日中文维基百科数据语 料,2020 年是较为的特殊年份,“疫情”是主要话题,因此在计算“疫情” 与“新冠”之间的相似度,其值约为 0.839;与疫情最相似的 8 个词语中 均符合认知但是“电脑 现在 不贵”与“计算机 便宜”的相似度为 0.8281,按照认知, 这两句话的相似度应该能达到 0.9 以上。综上可得模型结果依赖于模型采用的语料库通用性较差,而且计算相似度的词语必须都存在模型训练前的训练数据中,不然会出现所计算相似的的词语不存在模型中之类的报错。所以,这个模型还有缺陷,但是这是固性问题,毕竟就是我们要判断两者有没有关系,也要通过大脑接受一些文本信息进行判断,只不过这个过程你们忽视而已。

有问题可以评论区打出来,或者私聊也可以的







觉得有用的可以给个三连,关注一波!!!带你了解更多的自然语言处理小知识

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_46906413/article/details/123808182

智能推荐

class和struct的区别-程序员宅基地

文章浏览阅读101次。4.class可以有⽆参的构造函数,struct不可以,必须是有参的构造函数,⽽且在有参的构造函数必须初始。2.Struct适⽤于作为经常使⽤的⼀些数据组合成的新类型,表示诸如点、矩形等主要⽤来存储数据的轻量。1.Class⽐较适合⼤的和复杂的数据,表现抽象和多级别的对象层次时。2.class允许继承、被继承,struct不允许,只能继承接⼝。3.Struct有性能优势,Class有⾯向对象的扩展优势。3.class可以初始化变量,struct不可以。1.class是引⽤类型,struct是值类型。

android使用json后闪退,应用闪退问题:从json信息的解析开始就会闪退-程序员宅基地

文章浏览阅读586次。想实现的功能是点击顶部按钮之后按关键字进行搜索,已经可以从服务器收到反馈的json信息,但从json信息的解析开始就会闪退,加载listview也不知道行不行public abstract class loadlistview{public ListView plv;public String js;public int listlength;public int listvisit;public..._rton转json为什么会闪退

如何使用wordnet词典,得到英文句子的同义句_get_synonyms wordnet-程序员宅基地

文章浏览阅读219次。如何使用wordnet词典,得到英文句子的同义句_get_synonyms wordnet

系统项目报表导出功能开发_积木报表 多线程-程序员宅基地

文章浏览阅读521次。系统项目报表导出 导出任务队列表 + 定时扫描 + 多线程_积木报表 多线程

ajax 如何从服务器上获取数据?_ajax 获取http数据-程序员宅基地

文章浏览阅读1.1k次,点赞9次,收藏9次。使用AJAX技术的好处之一是它能够提供更好的用户体验,因为它允许在不重新加载整个页面的情况下更新网页的某一部分。另外,AJAX还使得开发人员能够创建更复杂、更动态的Web应用程序,因为它们可以在后台与服务器进行通信,而不需要打断用户的浏览体验。在Web开发中,AJAX(Asynchronous JavaScript and XML)是一种常用的技术,用于在不重新加载整个页面的情况下,从服务器获取数据并更新网页的某一部分。使用AJAX,你可以创建异步请求,从而提供更快的响应和更好的用户体验。_ajax 获取http数据

Linux图形终端与字符终端-程序员宅基地

文章浏览阅读2.8k次。登录退出、修改密码、关机重启_字符终端

随便推点

Python与Arduino绘制超声波雷达扫描_超声波扫描建模 python库-程序员宅基地

文章浏览阅读3.8k次,点赞3次,收藏51次。前段时间看到一位发烧友制作的超声波雷达扫描神器,用到了Arduino和Processing,可惜啊,我不会Processing更看不懂人家的程序,咋办呢?嘿嘿,所以我就换了个思路解决,因为我会一点Python啊,那就动手吧!在做这个案例之前先要搞明白一个问题:怎么将Arduino通过超声波检测到的距离反馈到Python端?这个嘛,我首先想到了串行通信接口。没错!就是串口。只要Arduino将数据发送给COM口,然后Python能从COM口读取到这个数据就可以啦!我先写了一个测试程序试了一下,OK!搞定_超声波扫描建模 python库

凯撒加密方法介绍及实例说明-程序员宅基地

文章浏览阅读4.2k次。端—端加密指信息由发送端自动加密,并且由TCP/IP进行数据包封装,然后作为不可阅读和不可识别的数据穿过互联网,当这些信息到达目的地,将被自动重组、解密,而成为可读的数据。不可逆加密算法的特征是加密过程中不需要使用密钥,输入明文后由系统直接经过加密算法处理成密文,这种加密后的数据是无法被解密的,只有重新输入明文,并再次经过同样不可逆的加密算法处理,得到相同的加密密文并被系统重新识别后,才能真正解密。2.使用时,加密者查找明文字母表中需要加密的消息中的每一个字母所在位置,并且写下密文字母表中对应的字母。_凯撒加密

工控协议--cip--协议解析基本记录_cip协议embedded_service_error-程序员宅基地

文章浏览阅读5.7k次。CIP报文解析常用到的几个字段:普通类型服务类型:[0x00], CIP对象:[0x02 Message Router], ioi segments:[XX]PCCC(带cmd和func)服务类型:[0x00], CIP对象:[0x02 Message Router], cmd:[0x101], fnc:[0x101]..._cip协议embedded_service_error

如何在vs2019及以后版本(如vs2022)上添加 添加ActiveX控件中的MFC类_vs添加mfc库-程序员宅基地

文章浏览阅读2.4k次,点赞9次,收藏13次。有时候我们在MFC项目开发过程中,需要用到一些微软已经提供的功能,如VC++使用EXCEL功能,这时候我们就能直接通过VS2019到如EXCEL.EXE方式,生成对应的OLE头文件,然后直接使用功能,那么,我们上篇文章中介绍了vs2017及以前的版本如何来添加。但由于微软某些方面考虑,这种方式已被放弃。从上图中可以看出,这一功能,在从vs2017版本15.9开始,后续版本已经删除了此功能。那么我们如果仍需要此功能,我们如何在新版本中添加呢。_vs添加mfc库

frame_size (1536) was not respected for a non-last frame_frame_size (1024) was not respected for a non-last-程序员宅基地

文章浏览阅读785次。用ac3编码,执行编码函数时报错入如下:[ac3 @ 0x7fed7800f200] frame_size (1536) was not respected for anon-last frame (avcodec_encode_audio2)用ac3编码时每次送入编码器的音频采样数应该是1536个采样,不然就会报上述错误。这个数字并非刻意固定,而是跟ac3内部的编码算法原理相关。全网找不到,国内音视频之路还有很长的路,音视频人一起加油吧~......_frame_size (1024) was not respected for a non-last frame

Android移动应用开发入门_在安卓移动应用开发中要在活动类文件中声迷你一个复选框变量-程序员宅基地

文章浏览阅读230次,点赞2次,收藏2次。创建Android应用程序一个项目里面可以有很多模块,而每一个模块就对应了一个应用程序。项目结构介绍_在安卓移动应用开发中要在活动类文件中声迷你一个复选框变量

推荐文章

热门文章

相关标签