一、引言
1.什么是神经网络
Relu——rectified linear unit(修正线性单元)
2.各种类型的神经网络
- SNN:标准神经网络,用于房价预测,在线广告是否点击
- CNN:卷积神经网络,用于图像识别
- RNN:循环神经网络,用于时间序列数据,语音识别
- 混合神经网络
3.结构化数据和非结构化数据
4.神经网络与传统的监督学习
二、逻辑回归(二分类)
1.约定的符号
2.logistic 回归
在神经网络中,
w
w
w和
b
b
b分开表示
3.logistic 回归的损失函数
为什么在逻辑回归中,损失函数不使用
L
(
y
^
−
y
)
=
1
2
(
y
^
−
y
)
2
L(\hat{y}-y)=\frac{1}{2}(\hat{y}-y)^2
L(y^−y)=21(y^−y)2呢,因为在逻辑回归中,该损失函数是非凸的,有多个局部最优。
4.梯度下降法
(1)成本函数
(2)梯度下降法的原理
(3)单个训练样本的logistic回归的一次梯度更新
a.单个训练样本的损失函数
b.各参数的梯度
d
a
=
d
L
d
a
=
−
y
a
+
1
−
y
1
−
a
da=\frac{dL}{da}=-\frac{y}{a}+\frac{1-y}{1-a}
da=dadL=−ay+1−a1−y
d
a
d
z
=
a
(
1
−
a
)
\frac{da}{dz}=a(1-a)
dzda=a(1−a)
d
z
=
d
L
d
z
=
d
L
d
a
d
a
d
z
=
a
−
y
dz=\frac{dL}{dz}=\frac{dL}{da}\frac{da}{dz} =a-y
dz=dzdL=dadLdzda=a−y
d
z
d
w
1
=
x
1
,
d
z
d
w
2
=
x
2
,
d
z
d
b
=
1
\frac{dz}{dw_1}=x_1,\frac{dz}{dw_2}=x_2,\frac{dz}{db}=1
dw1dz=x1,dw2dz=x2,dbdz=1
d
w
1
=
d
L
d
w
1
=
d
L
d
z
d
z
d
w
1
=
x
1
(
a
−
y
)
dw_1=\frac{dL}{dw_1}=\frac{dL}{dz}\frac{dz}{dw_1}=x_1(a-y)
dw1=dw1dL=dzdLdw1dz=x1(a−y)
d
w
2
=
d
L
d
w
2
=
d
L
d
z
d
z
d
w
2
=
x
2
(
a
−
y
)
dw_2=\frac{dL}{dw_2}=\frac{dL}{dz}\frac{dz}{dw_2}=x_2(a-y)
dw2=dw2dL=dzdLdw2dz=x2(a−y)
d
b
=
d
L
d
b
=
d
L
d
z
d
z
d
b
=
a
−
y
db=\frac{dL}{db}=\frac{dL}{dz}\frac{dz}{db}=a-y
db=dbdL=dzdLdbdz=a−y