机器学习基础(7):逻辑回归

逻辑回归

逻辑回归是一种分类算法,适用于二分类,也能得出概率值。

借用线性回归的公式,输入x:
h ( w ) = w 0 + w 1 x 1 + w 2 x 2 + . . . = w T x h\left( w \right) =w_0+w_1x_1+w_2x_2+...=w^Tx h(w)=w0​+w1​x1​+w2​x2​+...=wTx

g(z)为sigmoid函数:
机器学习基础(7):逻辑回归
逻辑回归:
机器学习基础(7):逻辑回归
输出:[0,1]区间的概率值,默认0.5作为阀值。

损失函数

与线性回归原理相同,但由于是分类问题,损失函数不一样,只能通过梯度下降求解。

对数似然损失函数:
机器学习基础(7):逻辑回归
这里用log函数来近似sigmoid函数。

将条件带入,写成一个式子:
机器学习基础(7):逻辑回归
cost损失的值越小,那么预测的类别准确度更高。

代码

良/恶性乳腺癌肿数据数据集:

原始数据的下载地址:https://archive.ics.uci.edu/ml/machine-learning-databases/

数据描述
(1)699条样本,共11列数据,第一列用语检索的id,后9列分别是与肿瘤
相关的医学特征,最后一列表示肿瘤类型的数值。
(2)包含16个缺失值,用”?”标出。

from sklearn.linear_model import LinearRegression, SGDRegressor,  Ridge, LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error, classification_report
import pandas as pd
import numpy as np

def logistic():
    """
    逻辑回归做二分类进行癌症预测(根据细胞的属性特征)
    :return: NOne
    """
    # 构造列标签名字
    column = ['Sample code number','Clump Thickness', 'Uniformity of Cell Size','Uniformity of Cell Shape','Marginal Adhesion', 'Single Epithelial Cell Size','Bare Nuclei','Bland Chromatin','Normal Nucleoli','Mitoses','Class']

    # 读取数据,names 可以指定列名,没有列名才需要指定
    data = pd.read_csv("https://archive.ics.uci.edu/ml/machine-learning-databases/breast-cancer-wisconsin/breast-cancer-wisconsin.data", names=column)

    print(data)

    # 缺失值进行处理
    # replace可以替换问号,但是不能直接给均值
    data = data.replace(to_replace='?', value=np.nan)

    # 删除nan,也可以用填充
    data = data.dropna()

    # 进行数据的分割,这里data只认column
    x_train, x_test, y_train, y_test = train_test_split(data[column[1:10]], data[column[10]], test_size=0.25)

    # 进行标准化处理,分类问题目标值不用标准化处理
    std = StandardScaler()

    x_train = std.fit_transform(x_train)
    x_test = std.transform(x_test)

    # 逻辑回归预测
    lg = LogisticRegression(C=1.0)

    lg.fit(x_train, y_train)

    print(lg.coef_)

    y_predict = lg.predict(x_test)

    print("准确率:", lg.score(x_test, y_test))

    print("召回率:", classification_report(y_test, y_predict, labels=[2, 4], target_names=["良性", "恶性"]))

    return None
    
if __name__ == "__main__":
    logistic()

运行结果:

机器学习基础(7):逻辑回归

解决多分类问题

逻辑回归解决办法:1 vs 1变成1 vs rest,也就是将其他几类均视为一类,仅分类目标类。

总结

应用:广告点击率预测、电商购物搭配推荐。

优点:适合需要得到一个分类概率的场景。

缺点:当特征空间很大时,逻辑回归的性能不是很好(看硬件能力)。

上一篇:静态区间 / gcd区间【ST表】


下一篇:LG P4859 已经没有什么好害怕的了