#信息内容安全第一次实验
–TF-IDF加权技术
文章目录
jieba库的分词使用的三种办法
-
全模式:把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义
-
精简模式:把句子最精确的分开,不会添加多余单词,看起来就像是把句子分割一下
-
搜索引擎模式:在精简模式下,对长词再度切分
jieba.cut生成的是一个生成器,generator,也就是可以通过for循环来取里面的每一个词。
jieba.lcut 直接生成的就是一个list
str1 = '我去北京*广场跳舞'
a = jieba.lcut(str1, cut_all=True) # 全模式
print('全模式:{}'.format(a))
b = jieba.lcut(str1, cut_all=False) # 精简模式
print('精简模式:{}'.format(b))
c = jieba.lcut_for_search(str1) # 搜索引擎模式
print('搜索引擎模式:{}'.format(c))
这次实验选择用精简模式。
listdir方法
listdir()方法语法格式如下:
os.listdir(path)
参数
path -- 需要列出的目录路径
返回值
返回指定路径下的文件和文件夹列表。
如果目录有中文 要转码处理。
一、实验原理
TF-IDF(term frequency–inverse document frequency,词频-逆向文档频率)是一种用于信息检索(information retrieval)与文本挖掘(text mining)的常用加权技术。如果某个词条在一篇文章中出现的频率高,并且在其他文章中很少出现,则认为此词或者短语具有很好的类别区分能力,适合用来分类。
1、TF(Term Frequency):词频,表示词条(关键字)在文本中出现的频率,常用归一化形式表示。
2、DF(Document Frequency):文档频率,含有词条(关键字)的文档的数量。
3、IDF(Inverse Document Frequency):逆文档频率,跟文档频率形成“反比关系”。
4、TF-IDF:
二、实验步骤
根据TF-IDF算法的思路,编写代码计算语料中出现的所有非停用词的TF-IDF值。将结果输出到result.txt。参考步骤如下:
(1)、读取语料文件
(2)、语料预处理。处理方法包括:去除空格以及换行符、分词(可用jieba库进行分词)、去除标点符号、去除停用词
(3)、根据步骤(2)得到文档的词条,计算词条的TF、DF
(4)计算所有词条的TF-IDF值,输出到result.txt文件中
源代码
import jieba
import math
import os
import re
# 加载标点符号列表
punctuation = list(
':-!?。,"#$%&'()*+,-/:;<=>@[\]^_`{|}~⦅⦆「」、、〃》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏.')
punctuation.append(
[' ', ',', '.', ':', ';', '?', '(', ')', '[', ']', '!', '@', '#', '%', '$', '*', "'s"])
tf = {} # 存储 term frequency 的字典
df = {} # 存储 document frequency 的字典
idf = {} # 存储 inverse document frequency 的字典
tfidf = {} # 存储 tf-idf 的字典
sum_file=6
# 加载停用词词表
with open("C:/Users/hp/Desktop/lab1/tf-idf/baidu_stopwords.txt", encoding="utf-8") as content:
stop_words = [word.strip() for word in content.readlines()]
# 获取语料文件的文件名,准备读取语料
path='C:/Users/hp/Desktop/lab1/tf-idf/'
corpus_files = [file for file in os.listdir(path) if re.match("corpus", file)]
print(corpus_files)
for file in corpus_files:
tmp_doc_freq = {}
file_path=path+str(file)
with open(file_path, "r", encoding="utf-8") as content:
for line in content.readlines():
# 任务1:去除空格以及换行符
line=line.replace(' ','')
line=line.replace('\n', '')
line=line.replace('\r', '')
# 任务2:分词(可使用jieba.dt.cut)
cut=[]
cut=jieba.lcut(line)
# 任务3:去除标点符号
without_punc=[]
for u in cut:
if str(u) in punctuation:
continue
else:
without_punc.append(str(u))
# 任务4:去除停用词
afterswlis = []
for i in without_punc:
if str(i) in stop_words:
continue
else:
afterswlis.append(str(i))
# 任务5:计算 tf 和文档临时 df
for i in afterswlis:
if str(i) in tf:
count = tf[str(i)]
tf[str(i)] = count+1
else:
tf[str(i)] = 1
for j in afterswlis:
if str(j) in tmp_doc_freq:
continue
else:
tmp_doc_freq[str(j)]=1
# 任务6:更新全局 df
for word in tmp_doc_freq:
if str(word) in df:
count=df[str(word)]
df[str(word)]=count+1
else:
df[str(word)]=1
# 任务7:计算 tf-idf
for w,v in df.items():
# 计算idf
idf[w]=math.log(sum_file/v+0.01)
# 计算tf-idf
tfidf[w]=idf[w]*tf[w]
print(sorted(tf.items(), key=lambda x: x[1]))
print(sorted(df.items(), key=lambda x: x[1]))
print(sorted(tfidf.items(), key=lambda x: x[1]))
#print(tfidf.items())
file_name=path+'result.txt'
#将tf-idf的值写入result.txt文件
with open(file_name, 'w') as f:
for key, values in tfidf.items():
print(key+":"+str(values)+"\r")
f.write(key+":"+str(values)+"\r")
总结
- 本次实验完善了逆向匹配算法和Sunday算法,通过读源代码也能更深入地了解这两种算法,Sunday算法有点难,读代码的时候读的磕磕绊绊,现在也不能完全理解清楚,后面会再找资料熟悉熟悉这种字符串匹配方法。
- 实验一的补充实验是在python语言下完成的,很久没有用过python,这次又重新捡起来,写的时候也是遇到挺多小问题,列举如下:文件路径出错(不知道究竟能不能有中文)、在遍历list时多套一层循环(和c++确实不一样,python感觉更“聪明”一点)、replace函数用错。
- 虽然python有很多的包和库,很方便,但学习使用这些包和库也是需要耐心,一开始总想着一蹴而就,想通过调包一次解决所有问题,最后就是原理不清楚,代码逻辑不清楚,原地踏步浪费时间。搞清楚代码逻辑最重要。
引用:
https://www.jb51.net/article/199012.htm