朴素⻉叶斯模型

模型思想

该分类器的实现思想⾮常简单,即通过已知类别的训练数据集,计算样本的先验概率,
然后利⽤⻉叶斯概率公式测算未知类别样本属于某个类别的后验概率,
最终以最⼤后验概率所对应的类别作为样本预测值。

先验概率

先验概率是指根据以往经验和分析得到的概率。如全概率公式,它往往作为“由应求果”问题中的“因”出现的概率。

后验概率

后验概率是信息理论的基本概念之一。在一个通信系统中,在收到某个消息之后,
接收端所了解到的该消息发送的概率称为后验概率。后验概率的计算要以先验概率为基础。
后验概率可以根据通过贝叶斯公式,用先验概率和似然函数计算出来。

⾼斯⻉叶斯分类器

如果数据集中的自变量X是连续型的数值变量时,通常会优先使用高斯贝叶斯分类器。

多项式⻉叶斯分类器

如果数据集中的自变量X均为离散型变量时,通常会优先使用多项式⻉叶斯分类器。

伯努利⻉叶斯分类器

如果数据集中的自变量X均为0-1二元值时,通常会优先使用伯努利⻉叶斯分类器

⾼斯⻉叶斯—⽪肤识别

# 导入第三方模块
import pandas as pd
# 读⼊数据
skin = pd.read_excel(r'Skin_Segment.xlsx')
# 设置一个映射关系(将2映射成1)
skin.y = skin.y.map({2:0,1:1})

# 导入第三方模块
from sklearn import model_selection
# 样本拆分
X_train,X_test,y_train,y_test = model_selection.train_test_split(skin.iloc[:,:3], skin.y,
test_size = 0.25, random_state=1234)

# 导入第三方模块
from sklearn import naive_bayes
# 调⽤⾼斯朴素⻉叶斯分类器的“类”
gnb = naive_bayes.GaussianNB()
# 模型拟合
gnb.fit(X_train, y_train)
# 模型在测试数据集上的预测
gnb_pred = gnb.predict(X_test)
pd.Series(gnb_pred).value_counts()

# 导入第三方模块
from sklearn import metrics
import matplotlib.pyplot as plt
import seaborn as sns
# 构建混淆矩阵
cm = pd.crosstab(gnb_pred,y_test)
# 绘制混淆矩阵图
sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')
# 去除x轴和y轴标签
plt.xlabel('Real')
plt.ylabel('Predict')
# 显示图形
plt.show()

print('模型的准确率为:\n',metrics.accuracy_score(y_test, gnb_pred))
print('模型的评估报告:\n',metrics.classification_report(y_test, gnb_pred))

# 计算正例覆盖率,绘制AUC曲线
y_score = gnb.predict_proba(X_test)[:,1]
fpr,tpr,threshold = metrics.roc_curve(y_test, y_score)
# 计算AUC的值
roc_auc = metrics.auc(fpr,tpr)
# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()

多项式⻉叶斯分类器代码说明

MultinomialNB(alpha = 1.0 , fit_prior = True , class_prior = None)

alpha:用于指定平滑系数a的值,默认为1.0
fit_prior:bool类型参数,是否已数据集中各类别的比例作为P(Ci)的先验概率,默认为True
class_prior:用于人工指定各类别的先验概率P(Ci)。如果指定该参数,则参数fit_prior不在有效

多项式⻉叶斯—毒蘑菇识别

# 导入第三方模块
import pandas as pd
# 读取数据
mushrooms = pd.read_csv(r'mushrooms.csv')
# 将字符型数据做因⼦化处理,将其转换为整数型数据
columns = mushrooms.columns[1:]
for column in columns:
    mushrooms[column] = pd.factorize(mushrooms[column])[0]

# 导入第三方模块
from sklearn import model_selection
# 将数据集拆分为训练集合测试集
Predictors = mushrooms.columns[1:]
X_train,X_test,y_train,y_test = model_selection.train_test_split(mushrooms[Predictors],
mushrooms['type'],
test_size = 0.25, random_state = 10)

# 导入第三方模块
from sklearn import naive_bayes
from sklearn import metrics
import seaborn as sns
import matplotlib.pyplot as plt
# 构建多项式⻉叶斯分类器的“类”
mnb = naive_bayes.MultinomialNB()
# 基于训练数据集的拟合
mnb.fit(X_train, y_train)
# 基于测试数据集的预测
mnb_pred = mnb.predict(X_test)

# 构建混淆矩阵
cm = pd.crosstab(mnb_pred,y_test)
# 绘制混淆矩阵图
sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')
# 去除x轴和y轴标签
plt.xlabel('')
plt.ylabel('')
# 显示图形
plt.show()
# 模型的预测准确率
print('模型的准确率为:\n',metrics.accuracy_score(y_test, mnb_pred))
print('模型的评估报告:\n',metrics.classification_report(y_test, mnb_pred))

# 计算正例覆盖率,绘制AUC曲线
y_score = mnb.predict_proba(X_test)[:,1]
fpr,tpr,threshold = metrics.roc_curve(y_test.map({'edible':0,'poisonous':1}), y_score)
# 计算AUC的值
roc_auc = metrics.auc(fpr,tpr)
# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()

伯努利⻉叶斯分类器代码说明

BernoulliNB(alpha = 1.0 , binarize = 0.0 , fit_prior = True , class_prior = None)

alpha:用于指定平滑系数a的值,默认为1.0
binarize:如果该参数为浮点型数值,则将以该值作为界限。
当自变量的值大于该值时,自变量的值将被转换为1,否则被转化为0;
如果该参数为None时,则默认训练数据集的自变量均为0-1值
fit_prior:bool类型参数,是否已数据集中各类别的比例作为P(Ci)的先验概率,默认为True
class_prior:用于人工指定各类别的先验概率P(Ci)。如果指定该参数,则参数fit_prior不在有效

伯努利⻉叶斯—情感分析

# 导入第三方模块
import pandas as pd
# 读⼊评论数据
evaluation = pd.read_excel(r'Contents.xlsx',sheet_name=0)
# 运⽤正则表达式,将评论中的数字和英⽂去除
evaluation.Content = evaluation.Content.str.replace('[0-9a-zA-Z]','')

# 导入第三方模块
import jieba
# 加载⾃定义词库
jieba.load_userdict(r'all_words.txt')
# 读⼊停⽌词
with open(r'mystopwords.txt', encoding='UTF-8') as words: 
    stop_words = [i.strip() for i in words.readlines()] 
# 构造切词的⾃定义函数,并在切词过程中删除停⽌词
def cut_word(sentence):
    words = [i for i in jieba.lcut(sentence) if i not in stop_words] 
    # 切完的词⽤空格隔开
    result = ' '.join(words)
    return(result) 
# 调⽤⾃定义函数,并对评论内容进⾏批量切词
words = evaluation.Content.apply(cut_word)

# 导入第三方模块
from sklearn.feature_extraction.text import CountVectorizer
# 计算每个词在各评论内容中的次数,并将稀疏度为99%以上的词删除
counts = CountVectorizer(min_df = 0.01)
# ⽂档词条矩阵
dtm_counts = counts.fit_transform(words).toarray()
# 矩阵的列名称
columns = counts.get_feature_names()
# 将矩阵转换为数据框,即X变量
X = pd.DataFrame(dtm_counts, columns=columns)
# 情感标签变量
y = evaluation.Type

# 导入第三方模块
from sklearn import model_selection
from sklearn import naive_bayes
from sklearn import metrics
import matplotlib.pyplot as plt
import seaborn as sns
# 将数据集拆分为训练集和测试集
X_train,X_test,y_train,y_test = model_selection.train_test_split(X,y,test_size = 0.25,random_state=1)
# 构建伯努利⻉叶斯分类器
bnb = naive_bayes.BernoulliNB()
# 模型在训练数据集上的拟合
bnb.fit(X_train,y_train)
# 模型在测试数据集上的预测
bnb_pred = bnb.predict(X_test)

# 构建混淆矩阵
cm = pd.crosstab(bnb_pred,y_test)
# 绘制混淆矩阵图
sns.heatmap(cm, annot = True, cmap = 'GnBu', fmt = 'd')
# 去除x轴和y轴标签
plt.xlabel('Real')
plt.ylabel('Predict')
# 显示图形
plt.show()

# 模型的预测准确率
print('模型的准确率为:\n',metrics.accuracy_score(y_test, bnb_pred))
print('模型的评估报告:\n',metrics.classification_report(y_test, bnb_pred))

# 计算正例覆盖率,绘制AUC曲线
y_score = bnb.predict_proba(X_test)[:,1]
fpr,tpr,threshold = metrics.roc_curve(y_test.map({'Negative':0,'Positive':1}), y_score)
# 计算AUC的值
roc_auc = metrics.auc(fpr,tpr)
# 绘制面积图
plt.stackplot(fpr, tpr, color='steelblue', alpha = 0.5, edgecolor = 'black')
# 添加边际线
plt.plot(fpr, tpr, color='black', lw = 1)
# 添加对角线
plt.plot([0,1],[0,1], color = 'red', linestyle = '--')
# 添加文本信息
plt.text(0.5,0.3,'ROC curve (area = %0.2f)' % roc_auc)
# 添加x轴与y轴标签
plt.xlabel('1-Specificity')
plt.ylabel('Sensitivity')
# 显示图形
plt.show()
上一篇:GBDT模型


下一篇:python定时任务BlockingScheduler模块