一、文本预处理
句子分割text_to_word_sequence,将一个句子拆分成单词构成的列表。注意这个函数对中文的分割无效。
from tensorflow import keras text='你去哪里了?我找不到你,快回电话,where are you,mary?can you call me back?' words=keras.preprocessing.text.text_to_word_sequence(text, filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n', lower=True, split=" ")
参数:
-
text:字符串,待处理的文本
-
filters:需要滤除的字符的列表或连接形成的字符串,例如标点符号。默认值为 '!"#$%&()*+,-./:;<=>?@[]^_`{|}~\t\n',包含标点符号,制表符和换行符等
-
lower:布尔值,是否将序列设为小写形式
-
split:字符串,单词的分隔符,如空格
返回值:字符串列表