《机器学习》西瓜书课后习题3.4——python解交叉验证和留一法的对率回归错误率
《机器学习》西瓜书P69
3.3 选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率
数据集:鸢尾花数据集
数据集属性信息:
1.萼片长度(以厘米计)
2.萼片宽度(以厘米计)
3.花瓣长度(以厘米计)
4.花瓣宽度(以厘米计)
5.类别:
数据集处理说明:该数据集中鸢尾花种类共有3种,分别是:Iris-setosa、Iris-versicolor和Iris-virginica,由于题目中要求采用两种方法对数据集进行处理,因此我们将Iris-setosa和Iris-versicolor划分在一个数据集(称为1号数据集),并采用留一法法进行数据集的划分,Iris-versicolor和Iris-virginica放入另一个数据集(称为2号数据集)并使用交叉验证法进行划分。
【代码】
#Iris-setosa标记为0,Iris-versicolor标记为1,Iris-virginica标记为2
def loadDataset(filename):
dataset_12=[]
dataset_23=[]
with open(filename,'r',encoding='utf-8') as csvfile:
csv_reader = csv.reader(csvfile)
for row in csv_reader:
if row[4] == 'Iris-setosa':
row[4]=0
dataset_12.append(copy.deepcopy(row))
elif row[4]=='Iris-virginica':
row[4]=2
dataset_23.append(copy.deepcopy(row) )
else:
row[4]=1
dataset_12.append(copy.deepcopy(row))
dataset_23.append(copy.deepcopy(row))
data_12 = [[float(x) for x in row] for row in dataset_12]
data_23= [[float(x) for x in row] for row in dataset_23]
# print(data_12)
# print(data_23)
return data_12,data_23
注意:在该程序中我们使用append(copy.deepcopy(row))进行深度复制,目的是避免对数组的操作影响原数组的变化,下同!!!!
针对2号数据集:
【代码思路】我们使用10折交叉验证法对数据集每次划分为训练集和测试集,然后使用梯度下降法对训练集进行训练,并使用测试集求得每次的准确率,最终我们将10次准确率取平均值,即为最终的正确率。
【详细过程】
-
首先利用python中自带的函数进行10折交叉验证划分,由于返回的是划分数据的下标,因此我们需要找到对应的数据元素,然后,对得到的训练集和测试集中的数据进行预处理(在数组最后增加一列1,0,1存储真实标记),接着就可以参与训练,我们将迭代次数设置为2000次,我们发现当迭代次数达到2000之后,准确率很难再增长,于是取2000作为终止条件,将得到的w分别与10个测试集进行运算比较,得到10组准确率,取平均值即可。
-
最终我们得到10折交叉验证法进行对率回归得到的准确率为96%!
#定义sigmoid函数 def sigmoid(z): return 1.0 / (1 + np.exp(-z)) #计算正确率 def testing(testset,w,testlabel): data = np.mat(testset).astype(float) y = sigmoid(np.dot(data, w)) b, c = np.shape(y) # 功能是查看矩阵或者数组的维数。 rightcount = 0 for i in range(b): flag = -1 if y[i, 0] > 0.5: flag = 1 elif y[i, 0] < 0.5: flag = 0 if testlabel[i] == flag: rightcount += 1 rightrate = rightcount / len(testset) return rightrate #迭代求w def training(dataset,labelset,testset,testlabel): # np.dot(a,b) a和b矩阵点乘 # np.transpose() 转置 # np.ones((m,n)) 创建一个m行n列的多维数组 data=np.mat(dataset).astype(float) label=np.mat(labelset).transpose() w = np.ones((len(dataset[0]),1)) #步长 n=0.0001 # 每次迭代计算一次正确率(在测试集上的正确率) # 达到0.90的正确率,停止迭代 rightrate=0.0 count=0 while count<5000: c=sigmoid(np.dot(data,w)) b=c-label change = np.dot(np.transpose(data),b) w=w-change*n #预测,更新准确率 if rightrate<testing(testset,w,testlabel): rightrate=testing(testset,w,testlabel) count+=1 return rightrate def formdata(dataset,flag):#flag=1代表的是对一号数据集进行数据预处理,falg=2针对2号数据集 #主要是将训练集和测试集进行规范化处理,便于下一步进行正确率计算和迭代求w data=[] label=[] if flag==1: for row in dataset: label.append(copy.deepcopy(row[4])) row[4]=1 data.append(copy.deepcopy(row)) elif flag == 2: for row in dataset: label.append(copy.deepcopy(row[4]-1)) row[4]=1 data.append(copy.deepcopy(row)) return data,label def changedata(dataset,train_index,test_index):#对数据集进行处理,增加最后一列为1 trainset=[] testset=[] for i in train_index: trainset.append(copy.deepcopy(dataset[i])) for i in test_index: testset.append(copy.deepcopy(dataset[i])) return trainset,testset #10折交叉验证法对数据集23进行分类 def Flod_10(dataset): sam=KFold(n_splits=10) rightrate=0.0 for train_index,test_index in sam.split(dataset):#得到训练集和测试集的索引 # 下面将索引转化为所对应的元素,并将训练集进行迭代,每次求出最大的正确率 trainset,testset=changedata(dataset,train_index,test_index) #print(trainset) trainset,trainlabel=formdata(trainset,2) testset,testlabel=formdata(testset,2) rightrate+=training(trainset,trainlabel,testset,testlabel) print(rightrate/10)
最终结果:
[[-1.90048431]
[-1.20567294]
[ 2.31544454]
[ 2.66095658]
[-0.20997301]]
[[-1.86985439]
[-1.3288315 ]
[ 2.3427924 ]
[ 2.64797632]
[-0.16119412]]
[[-1.90055107]
[-1.29322442]
[ 2.37973509]
[ 2.68461371]
[-0.26297932]]
[[-2.00438577]
[-1.18000688]
[ 2.43352222]
[ 2.65712983]
[-0.15617894]]
[[-1.94737348]
[-1.16692044]
[ 2.35919664]
[ 2.59038908]
[-0.14542583]]
[[-1.91467144]
[-1.22980709]
[ 2.27891615]
[ 2.74578832]
[-0.23887025]]
[[-1.94810073]
[-1.27450893]
[ 2.37093425]
[ 2.64955955]
[-0.24649082]]
[[-1.99150258]
[-1.25235181]
[ 2.35312496]
[ 2.75221192]
[-0.20701229]]
[[-1.96302072]
[-1.29024687]
[ 2.31087635]
[ 2.8008307 ]
[-0.16047752]]
[[-1.9630222 ]
[-1.35486554]
[ 2.50563773]
[ 2.44772595]
[-0.25646535]]
0.96
针对1号数据集
【代码思路】我们使用留一法进行划分,将数据集的75%作为训练集,25%作为测试集,由于Iris-setosa、Iris-versicolor的个数为1:1因此采用分层抽样的方法,我们将每种花的75%作为训练集,25%作为测试集,然后进行迭代求准确率即可!
#留出法——对数据集12进行分类
#将75%的样本作为训练,其余用作测试
def LeftOut(dataset):
train12=[]
test12=[]
for i in range(len(dataset)):
if i<=37:
train12.append(copy.deepcopy(dataset[i]))
elif i>50 and i<=88:
train12.append(copy.deepcopy(dataset[i]))
else:
test12.append(copy.deepcopy(dataset[i]))
trainset,trainlabel=formdata(train12,1)
testset,testlabel=formdata(test12,1)
rightrate=training(trainset,trainlabel,testset,testlabel)
print(rightrate)
最终结果