SpaCy 是一个免费的开源库,用于 Python 中的高级自然语言处理包括但不限于词性标注、dependency parsing、NER和相似度计算。它可帮助构建处理和理解大量文本的应用程序可用于多种方向,例如信息提取、自然语言理解或为深度学习提供文本预处理。
SpaCy 诞生于2014年年中(并且到现在这么多年了,它依然保持着持续的更新),号称“Industrial-Strength Natural Language Processing in Python”,spaCy里大量使用了 Cython 来提高相关模块的性能,这个区别于学术性质更浓的Python NLTK,因此具有了业界应用的实际价值。
spaCy 简介
SpaCy 目前为各种语言提供与训练的模型和处理流程,并可以作为单独的 Python 模块安装。例如下面就是下载与训练的en_core_web_sm 的示例。
python -m spacy download en_core_web_sm
请根据任务和你的文本来选择与训练的模型。小的默认流程(即以 sm 结尾的流程)总是一个好的开始。
完整文章
https://www.overfit.cn/post/61a6c8dc080c4249917a44921923b6f2