英文文本分词之工具NLTK
安装NLTK
pip install nltk
分词需要用到两个包:stopwords
和punkt
,需要下载:
import nltk
nltk.download('stopwords')
nltk.download('punkt')
如果你能运行成功,那么恭喜,但多半要和我一样,被墙,然后下载失败。于是乎,需要手动下载,这里我已经打包好了,百度提取即可。
链接:https://pan.baidu.com/s/1ddVRG86W-dyk2O6TsIMXAw
提取码:nltk
此处也是要感激广大网友的无私分享和帮助!!!
停用词和标点符号包放置
言归正传,下载解压后要注意,stopwords里面还有个stopwords文件,punkt文件里面还有个punkt文件,我们需要的是里面的这两个文件,而不是最外围的同名文件,虽然包含的内容一样,但是python读取的时候路径会出错。将里面
的stopwords
和punkt
文件夹分别移动到python安装目录下的两个子路径中,比如我的路径是F:\python38\Lib\nltk_data\corpora
和F:\python38\Lib\nltk_data\tokenizers
。需要说明的是,我的F:\python38\Lib
路径下并没有nltk_data
这个文件,没有?没有就让他有!新建文件夹,重命名即可。
然后在nltk_data
中再新建两个文件夹:corpora
和tokenizers
。然后把停用词和标点分别移动到这两个文件里即可,亦即:corpora\stopwords
和tokenizers\punkt
。
验证
此处提供一段验证代码,明日开始nltk分词之旅!
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
punctuations = [',', '.', ':', ';', '?', '(', ')', '[', ']', '&', '!', '*', '@', '#', '$', '%']
data = "All work and no play makes jack dull boy. All work and no play makes jack a dull boy."
words = word_tokenize(data)
words = [word for word in words if word not in punctuations] # 去除标点符号
stopWords = set(stopwords.words('english'))
wordsFiltered = []
for w in words:
if w not in stopWords:
wordsFiltered.append(w)
print(wordsFiltered)
完结,可以愉快地听歌了。