Python3 Keras分词器Tokenizer

import keras.preprocessing.sequence
from keras.preprocessing.text import Tokenizer
samples = ['我 爱 你 无畏 人海的 拥挤','用尽 余生的 力气 只为 找到 你','你']
# 创建分词器实例
# split 默认字符为空格
tokenizer = Tokenizer()
tokenizer.fit_on_texts(samples)
# word_counts:字典形式  出现过多少次
print(tokenizer.word_counts)
# word_docs: 字典
print(tokenizer.word_docs)
one_hot_results = tokenizer.texts_to_matrix(samples)
print(one_hot_results)
# 获得单词索引
word_index = tokenizer.word_index
print(word_index)
#document_count: 整数    几个字符串
print(tokenizer.document_count)
print('Found %s.'% len(word_index))
print(tokenizer.texts_to_sequences(["我 爱 你 无畏 人海的 拥挤"]))
print(keras.preprocessing.sequence.pad_sequences(tokenizer.texts_to_sequences(["我 爱 你 无畏 人海的 拥挤"]),maxlen=20))

截图:

Python3  Keras分词器Tokenizer

 

上一篇:DedeCMS 方法代码的修改


下一篇:使用飞桨模型生成情话情诗