F.cross_entropy(x,y)
cross_entropy(x,y)是交叉熵损失函数,一般用于在全连接层之后,做loss的计算。
其中x是二维张量,是全连接层的输出;y是样本标签值。x[batch_size,type_num];y[batch_size]。
cross_entropy(x,y)计算结果是一个小数,表示loss的值。
举例说明
x = np.array([[1, 2,3,4,5],#共三3样本,有5个类别
[1, 2,3,4,5],
[1, 2,3,4,5]]).astype(np.float32)
y = np.array([1, 1, 0])#这3个样本的标签分别是1,1,0即两个是第2类,一个是第1类
x = torch.from_numpy(x)
y = torch.from_numpy(y).long()
soft_out = F.softmax(x,dim=1)#给每个样本的pred向量做指数归一化---softmax
log_soft_out = torch.log(soft_out)#将上面得到的归一化的向量再point-wise取对数
loss = F.nll_loss(log_soft_out, y)#将归一化且取对数后的张量根据标签求和,实际就是计算loss的过程
"""
这里的loss计算式根据batch_size归一化后的,即是一个batch的平均单样本的损失,迭代一次模型对一个样本平均损失。
在多个epoch训练时,还会求每个epoch内的总损失,用于衡量epoch之间模型性能的提升。
"""
print(soft_out)
print(log_soft_out)
print(loss)
loss = F.cross_entropy(x, y)
print(loss)
输出:
softmax:
tensor([[0.0117, 0.0317, 0.0861, 0.2341, 0.6364],
[0.0117, 0.0317, 0.0861, 0.2341, 0.6364],
[0.0117, 0.0317, 0.0861, 0.2341, 0.6364]])
tensor([[-4.4519, -3.4519, -2.4519, -1.4519, -0.4519],
[-4.4519, -3.4519, -2.4519, -1.4519, -0.4519],
[-4.4519, -3.4519, -2.4519, -1.4519, -0.4519]])
tensor(3.7852)
结果分析
F.softmax(x,dim=1):一行和为1 sum([0.0117, 0.0317, 0.0861, 0.2341, 0.6364])=1
softmax函数公式
torch.log(soft_out):对softmax的结果进行取对数
a =pow(math.e,1)/(pow(math.e,1)+pow(math.e,2)+pow(math.e,3)+pow(math.e,4)+pow(math.e,5)) # 0.011656230956039609近似0.0117
print(math.log(0.011656230956039609)) # -4.4519
F.nll_loss(log_soft_out, y):对取对数的结果,根据y的值,(y值是索引),找到对应的值,黄色部分,各自取相反数再相加,求平均
(3.4519+3.4519+4.4519)/3 = 3.7852
所以:
cross_entropy函数:softmax->log->nll_loss
特别注意⭐⭐
全连接层的输出形状为[batch_size,type_num]。含义是第i个样本为第j类的概率。