TF-IDF加权技术

#信息内容安全第一次实验
–TF-IDF加权技术

文章目录


jieba库的分词使用的三种办法

  1. 全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义

  2. 精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下

  3. 搜索引擎模式:在精简模式下,对长词再度切分

jieba.cut生成的是一个生成器,generator,也就是可以通过for循环来取里面的每一个词。
jieba.lcut 直接生成的就是一个list

  str1 = '我去北京*广场跳舞'
  a = jieba.lcut(str1, cut_all=True) # 全模式
  print('全模式:{}'.format(a))
  b = jieba.lcut(str1, cut_all=False) # 精简模式
  print('精简模式:{}'.format(b))
  c = jieba.lcut_for_search(str1) # 搜索引擎模式
  print('搜索引擎模式:{}'.format(c))

TF-IDF加权技术
这次实验选择用精简模式。

listdir方法

listdir()方法语法格式如下:

os.listdir(path)

参数

path -- 需要列出的目录路径

返回值

返回指定路径下的文件和文件夹列表。
如果目录有中文 要转码处理。

一、实验原理

TF-IDF(term frequency–inverse document frequency,词频-逆向文档频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。如果某个词条在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
1、TF(Term Frequency):词频,表示词条(关键字)在文本中出现的频率,常用归一化形式表示。
TF-IDF加权技术

2、DF(Document Frequency):文档频率,含有词条(关键字)的文档的数量。

3、IDF(Inverse Document Frequency):逆文档频率,跟文档频率形成“反比关系”。
TF-IDF加权技术

4、TF-IDF:TF-IDF加权技术

二、实验步骤

根据TF-IDF算法的思路,编写代码计算语料中出现的所有非停用词的TF-IDF值。将结果输出到result.txt。参考步骤如下:
(1)、读取语料文件
(2)、语料预处理。处理方法包括:去除空格以及换行符、分词(可用jieba库进行分词)、去除标点符号、去除停用词
(3)、根据步骤(2)得到文档的词条,计算词条的TF、DF
(4)计算所有词条的TF-IDF值,输出到result.txt文件中

源代码

import jieba
import math
import os
import re

# 加载标点符号列表
punctuation = list(
    ':-!?。,"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.')
punctuation.append(
    [' ', ',', '.', ':', ';', '?', '(', ')', '[', ']', '!', '@', '#', '%', '$', '*', "'s"])

tf = {}        # 存储 term frequency 的字典
df = {}        # 存储 document frequency 的字典
idf = {}       # 存储 inverse document frequency 的字典
tfidf = {}     # 存储 tf-idf 的字典
sum_file=6

# 加载停用词词表
with open("C:/Users/hp/Desktop/lab1/tf-idf/baidu_stopwords.txt", encoding="utf-8") as content:
    stop_words = [word.strip() for word in content.readlines()]

# 获取语料文件的文件名,准备读取语料
path='C:/Users/hp/Desktop/lab1/tf-idf/'

corpus_files = [file for file in os.listdir(path) if re.match("corpus", file)]
print(corpus_files)
for file in corpus_files:
    tmp_doc_freq = {}
    file_path=path+str(file)
    with open(file_path, "r", encoding="utf-8") as content:
        for line in content.readlines():

            # 任务1:去除空格以及换行符
            line=line.replace(' ','')
            line=line.replace('\n', '')
            line=line.replace('\r', '')
            # 任务2:分词(可使用jieba.dt.cut)
            cut=[]
            cut=jieba.lcut(line)
            # 任务3:去除标点符号
            without_punc=[]
            for u in cut:
                if str(u) in punctuation:
                    continue
                else:
                    without_punc.append(str(u))
            # 任务4:去除停用词
            afterswlis = []
            for i in without_punc:
                if str(i) in stop_words:
                    continue
                else:
                    afterswlis.append(str(i))
            # 任务5:计算 tf 和文档临时 df
            for i in afterswlis:
                if str(i) in tf:
                    count = tf[str(i)]
                    tf[str(i)] = count+1
                else:
                    tf[str(i)] = 1
            for j in afterswlis:
                if str(j) in tmp_doc_freq:
                    continue
                else:
                    tmp_doc_freq[str(j)]=1
            
    # 任务6:更新全局 df
    for word in tmp_doc_freq:
        if str(word) in df:
            count=df[str(word)]
            df[str(word)]=count+1
        else:
            df[str(word)]=1
    

# 任务7:计算 tf-idf
for w,v in df.items():
    # 计算idf
    idf[w]=math.log(sum_file/v+0.01)
    # 计算tf-idf
    tfidf[w]=idf[w]*tf[w]
    
print(sorted(tf.items(), key=lambda x: x[1]))
print(sorted(df.items(), key=lambda x: x[1]))
print(sorted(tfidf.items(), key=lambda x: x[1]))

#print(tfidf.items())

file_name=path+'result.txt'
#将tf-idf的值写入result.txt文件
with open(file_name, 'w') as f:
    for key, values in tfidf.items():
        print(key+":"+str(values)+"\r")
        f.write(key+":"+str(values)+"\r")

总结

  1. 本次实验完善了逆向匹配算法和Sunday算法,通过读源代码也能更深入地了解这两种算法,Sunday算法有点难,读代码的时候读的磕磕绊绊,现在也不能完全理解清楚,后面会再找资料熟悉熟悉这种字符串匹配方法。
  2. 实验一的补充实验是在python语言下完成的,很久没有用过python,这次又重新捡起来,写的时候也是遇到挺多小问题,列举如下:文件路径出错(不知道究竟能不能有中文)、在遍历list时多套一层循环(和c++确实不一样,python感觉更“聪明”一点)、replace函数用错。
  3. 虽然python有很多的包和库,很方便,但学习使用这些包和库也是需要耐心,一开始总想着一蹴而就,想通过调包一次解决所有问题,最后就是原理不清楚,代码逻辑不清楚,原地踏步浪费时间。搞清楚代码逻辑最重要。

引用:
https://www.jb51.net/article/199012.htm

上一篇:嵌入式Linux设备驱动程序:发现硬件配置


下一篇:智能技术_6:K个最近邻居(医疗旅游)