最近处理的一些函数

一、文本预处理

句子分割text_to_word_sequence,将一个句子拆分成单词构成的列表。注意这个函数对中文的分割无效。

from tensorflow import keras
text='你去哪里了?我找不到你,快回电话,where are you,mary?can you call me back?'
words=keras.preprocessing.text.text_to_word_sequence(text,
                                               filters='!"#$%&()*+,-./:;<=>?@[\]^_`{|}~\t\n',
                                               lower=True,
                                               split=" ")

最近处理的一些函数

 

 参数:

  • text:字符串,待处理的文本

  • filters:需要滤除的字符的列表或连接形成的字符串,例如标点符号。默认值为 '!"#$%&()*+,-./:;<=>?@[]^_`{|}~\t\n',包含标点符号,制表符和换行符等

  • lower:布尔值,是否将序列设为小写形式

  • split:字符串,单词的分隔符,如空格

返回值:字符串列表

上一篇:自定义Django过滤器


下一篇:vue computed、filters 用法笔记