Python词频统计-程序员宅基地

技术标签: python  

作为我的python入门的一个小实验之一,我早在六月份的时候就进行了md笔记的编写,没有发布在博客上,这次,它将作为我在博客的第一篇。

我们知道,生活中的一些文本是嘈杂的,它可能含有很多的噪声数据,所以我们需要对其进行数据清洗处理,拿到我们想要的数据,词频统计就是其中一个获取文本价值信息的一种方式。

在学习了Python的字典和文件处理后,我们就可以对这个例子进行一个具体的实现了。

我将写入两个例子对其进行展示,因为搬运的是我初学时的笔记,所以如有错误请评论指正~

一、Hamlet词频统计

https://python123.io/resources/pye/hamlet.txt

以上为hamlet英文版文本的获取路径,下载完成后保存到工程路径下。

二、数据预处理

像以上提到的,我们的文本中含有标点和字符的噪声数据,所以要进行数据的清洗,将文档全部处理为只有我们需要的字母类型(为方便操作,用空格替换噪声数据,将文档全部转化为小写字母)

打开文件,进行读取,清洗数据,数据归档。

定义为函数处理

def getText():
    txt = open("hamlet.txt","r").read()
    txt = txt.lower()
    for ch in '!@#$%^&*()_/*-~':
        txt = txt.replace(ch," ")
    return txt

三、数值统计

因为这里我们要找出出现次数最多的词组,所以要进行存储比较它们的出现次数,这里显然是一种映射的关系,所以我们采取字典的方式对数据进行存储。

具体使用到字典的get函数实现

hamlet = getText()
words = hamlet.split()
counts = {}
for word in words:
    counts[word] = counts.get(word,0) + 1

四、转换处理

到这一步,我们就将所有在文档中出现的词组和其对应个数存入字典counts中了,因为字典是无序的,所以我们采取对其进行转化列表,利用列表的有序性进行排序。

sort函数中,reverse默认为False(从小到大),这里我们将值设为True(从大到小)排序。这样就会生成一个我们需要的序列了。

items = list(counts.items())
items.sort(key= lambda x:x[1],reverse=True)
for i in range(10):
    word, count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

输出结果:

四、三国演义人物出场频数

明白了上面的操作,我们也很容易的对中文文本进行操作了

利用jieba库,进行中文分词,将其存入列表words中,遍历,将词组和词频作为键值对存入列表counts中,利用列表的有序性,进行排序,然后输出

https://python123.io/resources/pye/threekingdoms.txt

以上为三国演义中文版文本获取链接,下载后保存到工程路径下

利用jieba库,

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
counts = {}
words = jieba.lcut(txt)
for word in words:
    if len(word) == 1:
        continue
    else:
        counts[word] = counts.get(word,0) + 1
items = list(counts.items())
items.sort(key = lambda x:x[1] , reverse=True)
for i in range(15):
    word , count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

该实验较于哈姆雷特版简单,不用去处理字符类噪声数据,这也得益于jieba库的简易操作。

但随之带来的是词频的模糊,因为jieba库的特性,导致不是人名的词组也被统计了进来。

如结果中的“二人”、”孔明曰“,这些都是冗余和词组问题的错误。

所以我们应该还需要进行进一步的处理,让词频统计人物的名字次数

经过前几步的操作,我们输出了出现频率最高的15给词组,可我们如果想要人物的出场频率呢? 这就需要对原文件进行过滤,把我们不需要的输出删除。

因为之前的输出可以简单的获取到出现频率高但不是人名的词组,所以我们这里把它们储存到一个集合中,遍历并删除原文件中存在的这些词组。

excludes = {"将军","却说","二人","不可","荆州","不能","如此","商议","如何","主公","军士","左右","军马"}
for i in excludes:
    del counts[i]

冗余处理:把出现频率高的相同人物别名进行统一

  elif word == "诸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "关公" or word == "云长":
        rword = "关羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "刘备"
    elif word == "孟德" or word ==  "丞相":
        rword = "曹操"

 反复的经过这些处理,我们可以得到我们想要的输出

import jieba
txt = open("threekingdoms.txt","r",encoding="utf-8").read()
counts = {}
excludes = {"将军","却说","二人","不可","荆州","不能","如此","商议","如何","主公","军士","左右","军马"}
words = jieba.lcut(txt)
for word in words:
    if len(word) == 1:
        continue
    elif word == "诸葛亮" or word == "孔明曰":
        rword = "孔明"
    elif word == "关公" or word == "云长":
        rword = "关羽"
    elif word == "玄德" or word == "玄德曰":
        rword = "刘备"
    elif word == "孟德" or word ==  "丞相":
        rword = "曹操"
    else:
        rword = word
    counts[rword] = counts.get(rword,0) + 1
for i in excludes:
    del counts[i]
items = list(counts.items())
items.sort(key = lambda x:x[1] , reverse=True)
for i in range(7):
    word,count = items[i]
    print("{0:<10}{1:>5}".format(word,count))

 

以上就是我对三国演义中文文档的人物出场词频统计笔记。

至此,还可以对各类报告、报道等进行词频统计,以找出其重点内容。

以上为hamlet英文文档及三国演义人物出场词频统计的实现。

欢迎大家留言讨论~~

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/m0_55975991/article/details/121887916

智能推荐

hdu2187 老人是真饿了-程序员宅基地

文章浏览阅读1.1k次。悼念512汶川大地震遇难同胞——老人是真饿了Time Limit: 1000/1000 MS (Java/Others) Memory Limit: 32768/32768 K (Java/Others)Total Submission(s): 16716 Accepted Submission(s): 7002Problem Description时间:2008年5月16日(震后第4..._hdu2187

慕课编译原理(第八章.扩充的巴科斯范式和语法图)_bnf范式概念在编译原理第几章-程序员宅基地

文章浏览阅读700次。慕课广西大学.编译原理.第八章.语法分析-自上而下分析2.扩充的巴科斯范式和语法图0 目录8 语法分析-自上而下分析28.2 扩充的巴科斯范式和语法图8.2.1课堂重点8.2.2测试与作业9 下一章0 目录8 语法分析-自上而下分析28.2 扩充的巴科斯范式和语法图8.2.1课堂重点8.2.2测试与作业9 下一章博客地址: ..._bnf范式概念在编译原理第几章

【(自动)运动控制系统】学习笔记_从电感矩阵方面说明非线性强耦合的根本原因-程序员宅基地

文章浏览阅读1w次,点赞17次,收藏69次。作者:MiTu_-_课程:运动控制系统参考书目:《自动控制系统》第二版 北京邮电大学 任彦硕 赵一丁运动控制系统一、课后习题二、直流调速三、变流调速四、简答一、课后习题U1 绪论自动控制系统结构七个环节:给定环节、放大环节、执行环节、控制对象、反馈环节、比较环节、校正环节自动控制系统举例(三选一):(一)速度给定控制系统  对 A 点列节点电流方程为:  某一时刻开始直流电动机转轴上负载转矩增加了一个恒定量,起始时,由于电动机输出功率还未来得及增大,转速将降低。使得测速发._从电感矩阵方面说明非线性强耦合的根本原因

报错: Could not build wheels for pillow, which is required to install pyproject.toml-based projects的解决_error: could not build wheels for pillow, which is-程序员宅基地

文章浏览阅读8.2k次,点赞6次,收藏4次。刚开始按报错的提示安装pillow==4.0.0版本的,就报上面的错误,上网上找解决方法,都未能解决,然后试着安装更高版本的pillow==10.0.0版本的,结果就成功了,我用的python版本是3.8的,估计是和python的版本与pillow版本里引用的库的兼容有关系,升级到相对应的版本就可以解决以上问题。以上供大家参考,讨论。_error: could not build wheels for pillow, which is required to install pypro

win10+uefi+gpt安装一键GHOST之后无法重启的快速解决方法(无需重装系统无需修复引导)_一键ghost不支持uefi+gpt-程序员宅基地

文章浏览阅读5.8w次,点赞2次,收藏7次。今天装完常用软件后,准备一键备份一下系统,就从一键GOST官网下载安装了一键GHOST,安装完成之后提示不支持UEFI+GPT格式系统,但仍可以使用,就没在意,也没卸载,接着就重启电脑试一试,结果就出现了无法进入系统引导的情况。 折腾一番BIOS之后,发现只需要按F7(我的笔记本主板选择启动方式或者说选择启动盘的快捷键是F7键,具体哪个按键根据自己电脑主板选择),选择windows_一键ghost不支持uefi+gpt

JVM之三大性能调优参数_jvm三大性能调优参数-程序员宅基地

文章浏览阅读339次。—Xss:规定了每个线程虚拟机栈的大小,会影响此进程中并发的线程数。—Xms:堆得初始值。—Xmx:堆能达到的最大值。一般Xms与Xmx的值设置的一样大小,当堆不够用进行扩容时会发生内存抖动,影响程序运行的稳定性。..._jvm三大性能调优参数

随便推点

c# 前导0_C#| 用前导和尾随空格/零填充整数-程序员宅基地

文章浏览阅读421次。c# 前导0To pad an integer number with leading and trailing spaces/zeroes, we can use String.Format() method which is library method of String class in C#. 要使用前导和尾随空格/零填充整数,我们可以使用String.Format()方法,该方法是C..._c#前导零

JavaScript运算符之三元运算符_js三元运算符-程序员宅基地

文章浏览阅读585次。三元运算符在程序开发时运用较多,他跟条件语句能同时实现某种效果时,三元运算符相对简单,代码量也相对较少,熟悉三元运算符是很有必要的;_js三元运算符

Window对象方法_window撖寡情 function-程序员宅基地

文章浏览阅读268次。Window 对象表示浏览器中打开的窗口。setTimeout() 方法功能:用于在指定的毫秒数后调用函数或计算表达式。语法:setTimeout(code/function, milliseconds)返回值:返回一个 ID(数字),可以将这个ID传递给 clearTimeout() 来取消执行。clearTimeout() 方法功能:可取消由 setTimeout() 方法设置的定时操作。语法:clearTimeout(id_of_settimeout)返回值:无_window撖寡情 function

贪心算法——找零钱、装豆子、分糖果、区间覆盖、霍夫曼编码等_找零钱贪心算法-程序员宅基地

文章浏览阅读708次。一、找零钱根据实际情况,有1元、(2元的已经不流通了)、5元、10元、20元、50元、100元。当有人给出36524元时,如何找钱给对方。// 找钱的类class payMoney{public: payMoney(); ~payMoney(); int howManyCash(int waitToPay);private: int *arr;};// 初始化钱的种类..._找零钱贪心算法

MVP模式研究与实践_前端 mvppersistent模式-程序员宅基地

文章浏览阅读450次。虽然有那么多资料介绍MVP了,但是还是想把自己的实践经验分享一下。MVP简介相信大家对MVC都是比较熟悉了,:M-Model-模型、V-View-视图、C-Controller-控制器,MVP作为MVC的演化版本,那么类似的MVP所对应的意义:M-Model-模型、V-View-视图、P-Presenter-表示器。 从MVC和MVP两者结合来看,Controlller/Presenter..._前端 mvppersistent模式

VMware Vsphere 6.0安装部署 (三) vCenter Server安装-程序员宅基地

文章浏览阅读132次。安装准备环境需求:安装vcenter需要域环境,因此要先安装域控(有些功能比如horizon view需要用到域环境),学习环境可以用一台虚拟机做域控。建议将域控和vcenter服务器分别装在不同的服务器上,生产环境应该尽量在物理服务器上安装vcenter服务器,这里学习环境我们就在虚拟机上安装vcenter管理程序。安装vcenter需要最低2核CPU,8G内存本例中采用一..._使用命令行从vcenter 6.0或更高版本的服务器设备或外部平台服务控制器中收集支持

推荐文章

热门文章

相关标签