处理英文文本时先进行分句,再进行分词,但是做完之后发现意义不大。
首先要下载nltk里边的一个包,即punkt包,下载到相应的文件夹里边。
import nltk
text=“i don’t like learning. I think it’s a good idea.”#给出自己的文本
sens=nltk.sent_tokenize(text)#分句指令
print(sens)
sens=nltk.word_tokenize(text)#分词指令
print(sens)
相关文章
- 02-16NLP学习笔记04---文本处理(分词、词过滤、文本表示、one-hot、文本相似度、TF-IDF)
- 02-16使用jieba分词计算txt中文本的词频
- 02-16中文文本预处理之结巴分词及特征化
- 02-16solr英文使用的基本分词器和过滤器配置
- 02-16【TF-IDF、word2vec、svm、cnn、textcnn、bilstm、cnn+bilstm、bilstm+attention实现】英文长文本分类
- 02-16英文文本分词之工具NLTK
- 02-16【转载】nltk英文自定义分词
- 02-16英文文本分句、分词
- 02-16windows文本文档不支持中文,英文正常写入中文显示乱码解决办法。
- 02-16实现一套ES全文检索语法-到Lucene语法的转换工具,以实现在es外部兼容处理文本分词