《Python自然语言处理》笔记

《Python自然语言处理》笔记

第1章 语言处理与Python

1.1 语言计算:文本和单词

Python入门

交互解释器IDLE使用

NLTK入门

1、安装NLTK:下载地址:http://www.nltk.org/

2、安装数据:启动Python解释器

import nltk
nltk.download()

《Python自然语言处理》笔记

搜索文本

#词语索引:查看mostrous在tex1中出现的文本片段
text1.concordance("monstrous") 

# 查看哪些词出现在相似的上下文
text1.similar("monstrous")

#研究两个或两个以上词的共同上下文
text2.common_contexts(["monstrous", "very"])
#输出:am_glad a_pretty a_lucky is_pretty be_glad

#随机文本
text3.generate()

#从文本开头算起在它前面有多少词。这个位置信息可以用离散图表示。每一个竖线代表一个单词,每一行代表整个文本。
text4.dispersion_plot(["citizens","democracy","freedom","duties","America"])
#输出如下图:为了画出这本书中用到的图形,你需要安装 Python 的 NumPy 的 Matplotlib 包

《Python自然语言处理》笔记

计数词汇

>>> len(text3)#包括标点
44764
>>> sorted(set(text3))
['!', "'", '(', ')', ',', ',)', '.', '.)', ':', ';', ';)', '?', '?)', 'A', 'Abel',]...
>>> len(set(text3))#set集合特性,不重复字符
2789
![在这里插入图片描述](https://www.icode9.com/i/ll/?i=20210210210711731.png?,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L20wXzQ2NDMwNTgz,size_16,color_FFFFFF,t_70#pic_center)

一个词类型是指一个词在一 个文本中独一无二的出现形式或拼写。也就是说,这个词在词汇表中是唯一的。我们计数的 2,789 个项目中包括标点符号,所以我们把这些叫做唯一项目类型而不是词类型。

​ 计算文本词汇丰富度

>>> from __future__ import division
>>> len(text3)/len(set(text3))
16.050197203298673
>>> text3.count('smote')
5
>>> 100*text4.count('a') / len(text4)
1.4643016433938312 
#功能封装
def lexical_diversity(text):
    """词汇差异"""
    return len(text) / len(set(text))

def percentage(count, total):
    """词汇占文本百分比"""
    return 100 * count / total

1.2 近观Python:将文本当做链表

上一篇:c# – 如何比较dotnetrdf中的简单和类型文字?


下一篇:java – 构建并运行Apache Stanbol实例 – 失败