使用SpaCy分词

一、安装SpaCy

pip install spacy

二、英文分词

1. 安装en

python -m spacy download en

2. 分词

import spacy

spacy_en = spacy.load("en_core_web_sm")


def tokenize_en(text):
    return [tok.text for tok in spacy_en.tokenizer(text)]


print(tokenize_en("Hello, my name is tom."))

运行结果:

['Hello', ',', 'my', 'name', 'is', 'tom', '.']

三、中文分词

1. 安装zh_core_web_sm

python -m spacy download zh_core_web_sm

2. 分词

import spacy

spacy_zh = spacy.load("zh_core_web_sm")


def tokenize_zh(text):
    return [tok.text for tok in spacy_zh.tokenizer(text)]


print(tokenize_zh("你好,我的名字叫汤姆"))

运行结果:

['你好', ',', '我', '的', '名字', '叫', '汤姆']

官网上提供有三个中文模型:
zh_core_web_sm
zh_core_web_md
zh_core_web_lg

安装方式:

python -m spacy download zh_core_web_sm
python -m spacy download zh_core_web_md
python -m spacy download zh_core_web_lg

相关文章:
spacy库中文模型的安装_Zhang_Pro的博客-程序员宅基地_spacy 中文模型

上一篇:VS code 调试配置 Debugging


下一篇:如何将Python自然语言处理速度提升100倍:用spaCy/Cython加速NLP