问题1
你打算要构建一个能够识别三个对象并定位位置的算法。这些对象是:行人(c=1),汽车(c=2),摩托车(c=3)。下图中的标签哪个是正确的?注:y=[ p c p_c pc, b x b_x bx, b y b_y by, b h b_h bh, b w b_w bw, c 1 c_1 c1, c 2 c_2 c2, c 3 c_3 c3]
- y=[1, 0.3, 0.7, 0.3, 0.3, 0, 1, 0].正确
- y=[1, 0.7, 0.5, 0.3, 0.3, 0, 1, 0]
- y=[1, 0.3, 0.7, 0.5, 0.5, 0, 1, 0]
- y=[1, 0.3, 0.7, 0.5, 0.5, 1, 0, 0]
- y=[0, 0.2, 0.4, 0.5, 0.5, 0, 1, 0]
图像中是汽车,所以排除最下面2个。
根据图像中汽车位置,显然中心点坐标
b
x
b_x
bx不可能是0.7。
第三个,
b
y
+
b
h
b_y+b_h
by+bh大于1,也排除。
========================================================
问题2
继续上一个问题,上图中y的值是多少?注:“?”是指“不关心这个值”,这意味着神经网络的损失函数不会关心神经网络输出的结果。和上面一样,y=[ p c p_c pc, b x b_x bx, b y b_y by, b h b_h bh, b w b_w bw, c 1 c_1 c1, c 2 c_2 c2, c 3 c_3 c3]。
- y=[1, ?, ?, ?, ?, ?, ?, ?]
- y=[0, ?, ?, ?, ?, 0, 0, 0]
- y=[1, ?, ?, ?, ?, 0, 0, 0]
- y=[?, ?, ?, ?, ?, ?, ?, ?]
- y=[0, ?, ?, ?, ?, ?, ?, ?]。正确
图中对象不存在,那 p c p_c pc就是0。 y的其它参数将变得毫无意义,所以都用“?”。
========================================================
问题3
你正在进行工厂自动化工作。你的系统会看到一罐饮料从传送带上下来,你想系统对其进行拍照,然后
- 确定照片中是否有饮料罐,
- 如果有的话就对其进行包装。
饮料罐头是圆的,而包装盒是方的,每一罐饮料的大小是一样的。每个图像中最多只有一罐饮料。上面有一些典型的训练集图像:
你的神经网络最合适的输出单元是什么?
- Logistic unit (用于分类图像中是否有罐头)
- Logistic unit,bx和by。正确。
- Logistic unit,bx,by,bh (因为bw =bh,所以只需要一个就行了)
- Logistic unit,bx,by,bh,bw
罐头高度和长度是确定的,没有必要再输出了。
========================================================
问题4
如果你想要构建一个能够输入人脸图片输出为N个标记的神经网络(假设图像只包含一张脸),那么你的神经网络有多少个输出单元?
- N
- 2N。正确。
- 3N
- N2
1个特征2个坐标,所以总共2N个
========================================================
问题5
当你训练一个课程中描述的目标检测系统时,你需要一个包含了检测对象的许多图片的训练集。然而边界框不需要在训练集中提供,因为算法可以自己学习检测对象,这个说法对吗?
- True
- False。正确
========================================================
问题6
假如你正在应用一个滑动窗口分类器(非卷积实现),增加步伐不仅会提高准确性,也会降低成本。
- True
- False。正确
这是卷积的滑动窗口实现的优点。
========================================================
问题7
在YOLO算法训练时候,只有一个包含对象的中心/中点的一个单元负责检测这个对象。
- True。正确
- False
========================================================
问题8
这两个框中IoU大小是多少?左上角的框是2x2大小,右下角的框是2x3大小,重叠部分是1x1。
- 1/6
- 1/9
- 1/10
- 以上都不是
两个边界框交集和并集之比。
交集:1x1=1
并集:2x2+2x3-1x1=9
========================================================
问题9
假如你在上图中的预测框中使用非最大值抑制NMS。其参数是放弃概率≤ 0.4的框,并决定两个框IoU的阈值为0.5,使用非最大值抑制后会保留多少个预测框?
- 3
- 4
- 5。正确
- 6
- 7
小于0.4的淘汰,那个car 0.26被淘汰。
IoU阈值为0.5,那么car 0.62被淘汰。
========================================================
问题10
假设你使用YOLO算法,在19x19网格中检测20个分类,使用5个锚框(anchor box)。在训练的过程中,对于每个图像你需要输出卷积后的结果y作为神经网络目标值(这是最后一层),y可能包括一些“?”或者“不关心的值”。请问最后的输出维度是多少?
- 19x19x(25x20)
- 19x19x(20x25)
- 19x19x(5x25)。正确
- 19x19x(5x20)
19x19x(锚框数量x( 5个参数 p c p_c pc, b x b_x bx, b y b_y by, b h b_h bh, b w b_w bw+20个分类))