Python 中的 “jieba库”

目录

壹:介绍

贰:安装

叁:准备

肆:代码

伍:最后


壹:介绍

        Python第三方库 "jieba库" 的功能是对中文进行分词;"jieba库" 就像一把美工刀,而中文文本为一张精美的彩纸,我们用美工刀将彩纸裁剪成一小块一小块。

        在这一篇博文里,"jieba库" 将与 "词频统计" 联动。意思是说,会有很多Python干货作为内容的补充哦。

—— Violet


贰:安装

        推荐采用,镜像法安装:pip install  -i https://pypi.tuna.tsinghua.edu.cn/simple jieba

        大家可以新建一个 “txt文本文档” ,将这段指令保存起来(因为其他库的安装也是类似的,将库名替换一下就行)。


叁:准备

        既然说到词频统计,那么,没有知识点的储备,与,事先准备好的文本是不行的,对吧?

        "Follow me."

《基本知识》
       jieba.lcut(txt)        对 txt 进行精确分词。

        下面是文本(可以考虑按住"Shift键"复制)。

......

日期:2020年4月17日        天气:雨

        今天,特别。为什么?因为,今天是4月的第三个星期五。

        也许你会问:“这有什么特别的呀?”我想说,每一天都是独特的礼物,它独一无二,它只存在一天。

        “那么,为什么不去珍惜它呢?”

        明天,星期六;后天,星期天。“全省适应性考试”(类似高考的操作流程)。啊呀呀,到了这一天吗?感慨感慨。

        总之,不论怎样,自己都要好好地去完成它呀!或许,通过这次考试我能获得些新的什么也说不定哦。

        《看天下》确实是一本有趣的杂志。

        当然,前提是你能静下心去阅读。以前呢,阅读《看天下》,自己的感受是——信息量好大!文章好长!怎么可能静下心来去阅读嘛!

        但,随着年岁的增长(我觉得,用这个词也还行),或许是我老了,自己也逐渐变得稳重,心智也慢慢地成熟......也许,大概,可能是因为这一原因吧?

        自己可以安静下来阅读这本杂志的原因(部分),以上。

        这页好像要写完了,换行吧。

        因为今天是特别的,所以在这个特别的日子里自己想将这篇日记写得长一些。

        高考,自己的理想大学是哪?

        我想是,北京外国语大学。对于语言,自己有种说不上来的感觉,喜欢(病句?)。

        如果,你问我为什么喜欢(倒也不会觉得你烦)。

        我觉得,我回答不上来,因为,喜欢是不需要理由的,至少,我是这样觉得的。

        那么,自己就更要“好好学习,天天向上”了(姨母笑)。

        后天,星期天。考完试后,出去理发。然后,回家吃饭。停下笔回想,自己上次出校是在半个月前吧?

        截至今日中午,全球新冠病毒累计确诊病例已经是199万+,接近200万了。这真的是一件值得深思的问题。

        “人与自然的矛盾,社会的恐慌,高失业率,两极分化问题......”

        我们确实是面临着许多问题,矛盾。但这并不意味着我们不去解决它们。

        一面墙,是由一块一块的砖堆砌起来的,一件事的解决是这样,一个人的一生也是这样。

......

—— Violet


肆:代码

        以下是代码。

# -*- coding: utf-8 -*-
"""
Created on Thu Jan 20 12:09:10 2022

@author: will
"""

#%%
# 调用函数库。

import jieba

#%%
# 获取文本。

txt = open("日记.txt","r",encoding = "utf-8").read()

#%%
# 分词。

words = jieba.lcut(txt)

#print(words) # 查看分词后的结果。

#%%
# 处理。

List = list()

for word in words:
    
    if len(word) == 1:
        
        pass
    
    else:
        
        List.append(word)
    
#print(List)
    
#%%
# 创建计数器。

dic = dict()

for word in List:
    
    dic[word] = dic.get(word,0) + 1
    
#print(dic)

#%%
# 排序。

item = list(dic.items())

#print(item)

item.sort(key=lambda x:x[1],reverse=True)

#print(item) #如果将"1"修改为"0",结果会有什么变化呢?试试看吧!

#%%
# 导出结果。

for i in range(10):
    
    word,count = item[i]
    
    print("{0:<10}{1:>4}".format(word,count))

#%%
# 待优化。

        Emm,,这是运行结果图,不过显示的时候好像错位了,伙伴们,能告诉博主该怎么解决问题吗?(疑惑)

Python 中的 “jieba库”

伍:最后

        “你是谁?你从哪里来?你要到哪里去?” 好好地回答这个问题对于提升自己的能力会很有帮助。

—— Violet

        

上一篇:LeetCode12. 整数转罗马数字


下一篇:C# 反编译防范