机器学习-特征工程之文本处理(三)

1.文本数据:扁平化、过滤和分块

1.1元素袋:将自然文本转换为扁平向量

1.1.1词袋

一个特征就是一个单词,一个特征向量由这个单词在每篇文档中出现的次数组成

机器学习-特征工程之文本处理(三)

1.1.2 n 元词袋

n-gram(n 元词)是由 n 个标记 (token)组成的序列。
1-gram 就是一个单词(word),又称为一元词(unigram)。
n越大,能表示的信息越丰富,相应的成本也会越高。

  • eg:计算 n-gram
>>> import pandas
      >>> import json
      >>> from sklearn.feature_extraction.text import CountVectorizer
# 加载前10 000条点评
>>> f = open('data/yelp/v6/yelp_academic_dataset_review.json') >>> js = []
>>> for i in range(10000):
... js.append(json.loads(f.readline()))
>>> f.close()
>>> review_df = pd.DataFrame(js)
# 创建一元词、二元词和三元词的特征转换器。
# 默认情况下,会忽略单字母词,这非常有实际意义, # 因为会除去无意义的词。但在这个例子中,
# 出于演示的目的,我们会显式地包含这些词。

>>> bow_converter = CountVectorizer(token_pattern='(?u)\\b\\w+\\b')
>>> bigram_converter = CountVectorizer(ngram_range=(2,2),
...                                    token_pattern='(?u)\\b\\w+\\b')
>>> trigram_converter = CountVectorizer(ngram_range=(3,3),
...                                     token_pattern='(?u)\\b\\w+\\b')
# 拟合转换器,查看词汇表大小
>>> bow_converter.fit(review_df['text'])
>>> words = bow_converter.get_feature_names()
>>> bigram_converter.fit(review_df['text'])
>>> bigrams = bigram_converter.get_feature_names() >>> trigram_converter.fit(review_df['text'])
>>> trigrams = trigram_converter.get_feature_names() >>> print (len(words), len(bigrams), len(trigrams)) 26047 346301 847545
# 看一下n-gram
>>> words[:10]
['0', '00', '000', '0002', '00am', '00ish', '00pm', '01', '01am', '02']
>>> bigrams[-10:]
['zucchinis at',
 'zucchinis took',
 'zucchinis we',
 'zuma over',
 'zuppa di',
 'zuppa toscana',
 'zuppe di',
 'zurich and',
 'zz top',
 'à la']
>>> trigrams[:10]
['0 10 definitely',
 '0 2 also',
 '0 25 per',
 '0 3 miles',
 '0 30 a',
 '0 30 everything',
 '0 30 lb',
 '0 35 tip',
 '0 5 curry',
'0 5 pork']

Yelp 数据集前 10 000 条点评中唯一 n-gram 的数量:

机器学习-特征工程之文本处理(三)

1.2使用过滤获取清洁特征

1.2.1 停用词

停用词列表

1.2.2 基于频率的过滤

  1. 高频词
  2. 罕见词

1.2.3 词干提取

eg:Python 的 NLTK 包运行 Porter stemmer 的例子。它适用于很多情况,但不是万能的。
如:“goes”被映射到了“goe”,而“go”被映射到了它本身。  

>>> import nltk
>>> stemmer = nltk.stem.porter.PorterStemmer()
>>> stemmer.stem('flowers')
u'flower'
>>> stemmer.stem('zeroes')
u'zero'
>>> stemmer.stem('stemmer')
u'stem'
>>> stemmer.stem('sixties')
u'sixti'
>>> stemmer.stem('sixty')
u'sixty'
>>> stemmer.stem('goes')
u'goe'
>>> stemmer.stem('go')
u'go'

词干提取并不是非做不可

1.3 意义的单位:从单词、n 元词到短语

1.3.1 解析与分词

  • 解析

  • 半结构化文档,比如 JSON 字符串或 HTML 页面
  • 网页,那么解析程序还需要处理 URL
  • 电子邮件,像发件人、收件人和标题这些域都需要特殊处理
  • 否则这些信息在最终计数中就会和普通词一样,也就失去作用了
  • 分词

  • 空格
  • 标点符号

1.3.2 通过搭配提取进行短语检测

  1. 基于频率的方法

  2. 用于搭配提取的假设检验

  • 通过似然比检验这种分析方法来检测常见短语的算法如下:
    (1) 计算出所有单词的出现概率:P(w)。
    (2) 对所有的唯一二元词,计算出成对单词出现的条件概率:P(w2 | w1)。
    (3) 对所有的唯一二元词,计算出似然比 log λ。
    (4) 按照似然比为二元词排序。
    (5) 将似然比最小的二元词作为特征。

     3.文本分块和词性标注

  • 文本分块要比找出 n 元词复杂一些,它要使用基于规则的模型并基于词性生成标记序列。

  • 为了找出这些短语,我们先切分出所有带词性的单词,然后检查这些标记的邻近词,找出按词性组合的词组,这些词组又称为“块”。将单词映射到词性的模型通常与特定的语言有关。一些开源的 Python 程序库(比如 NLTK、spaCy 和
    TextBlob)中带有适用于多种语言的模型。

  • eg:词性标注和文本分块

>>> import pandas as pd
      >>> import json
# 加载前10条点评
>>> f = open('data/yelp/v6/yelp_academic_dataset_review.json') >>> js = []
>>> for i in range(10):
... js.append(json.loads(f.readline()))
>>> f.close()
>>> review_df = pd.DataFrame(js)
# 首先使用spaCy中的函数 >>> import spacy
# 预先加载语言模型
>>> nlp = spacy.load('en')
# 我们可以创建一个spaCy nlp变量的Pandas序列 >>> doc_df = review_df['text'].apply(nlp)
# spaCy可以使用(.pos_)提供细粒度的词性,
# 使用(.tag_)提供粗粒度的词性
>>> for doc in doc_df[4]:
... print([doc.text, doc.pos_, doc.tag_])
Got VERB VBP
a DET DT
letter NOUN NN
in ADP IN
the DET DT
mail NOUN NN
last ADJ JJ
week NOUN NN
that ADJ WDT
said VERB VBD
Dr. PROPN NNP
Goldberg PROPN NNP
is VERB VBZ
moving VERB VBG
to ADP IN
Arizona PROPN NNP
to PART TO
take VERB VB
a DET DT
new ADJ JJ
position NOUN NN
there ADV RB
in ADP IN
June PROPN NNP
. PUNCT .
  SPACE SP
He PRON PRP
will VERB MD
be VERB VB
missed VERB VBN
very ADV RB
much ADV RB
. PUNCT .
SPACE SP
I PRON PRP
think VERB VBP
finding VERB VBG
a DET DT
new ADJ JJ
doctor NOUN NN
in ADP IN
NYC PROPN NNP
that ADP IN
you PRON PRP
actually ADV RB
like INTJ UH
might VERB MD
almost ADV RB
be VERB VB
as ADV RB
awful ADJ JJ
as ADP IN
trying VERB VBG
to PART TO
find VERB VB
a DET DT
date NOUN NN
! PUNCT .


# spaCy还可以进行基本的名词分块
>>> print([chunk for chunk in doc_df[4].noun_chunks])
[a letter, the mail, Dr. Goldberg, Arizona, a new position, June, He, I, a new doctor, NYC, you, a date]
#####
# 我们还可以使用TextBlob实现同样的特征转换 from textblob import TextBlob
# TextBlob中的默认标记器使用PatternTagger,在这个例子中是没有问题的。 # 你还可以指定使用NLTK标记器,它对于不完整的句子效果更好。
>>> blob_df = review_df['text'].apply(TextBlob)
>>> blob_df[4].tags
[('Got', 'NNP'),
('a', 'DT'),
('letter', 'NN'),
('in', 'IN'),
('the', 'DT'),
('mail', 'NN'),
('last', 'JJ'),
('week', 'NN'),
('that', 'WDT'),
('said', 'VBD'),
('Dr.', 'NNP'),
('Goldberg', 'NNP'),
('is', 'VBZ'),
('moving', 'VBG'),
('to', 'TO'),
('Arizona', 'NNP'),
('to', 'TO'),
('take', 'VB'),
('a', 'DT'),
('new', 'JJ'),
('position', 'NN'),
('there', 'RB'),
('in', 'IN'),
('June', 'NNP'),
('He', 'PRP'),
('will', 'MD'),
('be', 'VB'),
('missed', 'VBN'),
('very', 'RB'),
('much', 'JJ'),
('I', 'PRP'),
('think', 'VBP'),
('finding', 'VBG'),
('a', 'DT'),
('new', 'JJ'),
('doctor', 'NN'),
('in', 'IN'),
('NYC', 'NNP'),
('that', 'IN'),
('you', 'PRP'),
('actually', 'RB'),
('like', 'IN'),
('might', 'MD'),
('almost', 'RB'),
('be', 'VB'),
('as', 'RB'),
('awful', 'JJ'),
('as', 'IN'),
('trying', 'VBG'),
('to', 'TO'),
('find', 'VB'),
('a', 'DT'),
('date', 'NN')]
>>> print([np for np in blob_df[4].noun_phrases])
['got', 'goldberg', 'arizona', 'new position', 'june', 'new doctor', 'nyc']

参考:
《精通特征工程》爱丽丝·郑·阿曼达·卡萨丽
小小孩儿的碎碎念


整理于2020年11月22日

上一篇:Vocabulary Recitation 2020/05/21


下一篇:CHAPTER 18 Semantic Role Labeling