文本预处理
文本预处理一般用jieba或者hanlp库进行句子分词,jieba为中文库,hanlp可分中文词也可以分英文词。
具体调用形式为jieba.lcut(’ ')
命名实体识别
命名实体:通常我们将人名、地名、机构名等转悠名词统称为命名实体。命名实体识别就是识别出一段文本中可能存在的命名实体。
作用:是人类理解文本的基础单元,也是AI解决NLP领域高阶任务的重要基础环节。
词性标注
对词的一种分类方法,一语法特征为主要依据,兼顾词汇意义对此进行划分的结果,标注出一段文本中每个词汇的词性。