Spatiotemporal Recurrent Convolutional Networks for Recognizing Spontaneous Micro-expressions

STRCN 时空循环卷积网络用于识别自发微表情

3-C
时空连通性
一张图的一个通道为矩阵的一个列;
时空变化就在这个矩阵中;
用STRCN学习处理这个矩阵 = 学习到外观特征;
STRCN处理光流相关的信息(矩阵?)得到几何特征?
图2两个图的不同点是:
第一个每一个图像对应一个模块,多个模块叠加交到卷积层处理;
第二个多个图像得到一个模块,交到卷积层处理;

(1) type-1
初始想法是将一张图片的所有的像素作为矩阵的一个列;
这样的后果是矩阵特别大;
那我们就找有效位置的像素作为列;
为了得到这些有效位置或者叫微表情感知区域;
我们要得到一些mask,就是这些区域;
怎么得到这些mask?
用 difference heat map 即 E(x,y)
E(x,y)再经过阈值处理就得到了有效的(x,y),这些坐标合起来就是mask;
那么我们要求得到的mask像素点的数量是一样的,怎么办?
我们取高的固定百分比的像素点作为区域;
这样整个视频都可以表示成一个恒定的维度;
(2)type-2
只用起始帧和高潮帧计算光流;

3-D. Spatiotemporal Modeling
CNN有很强的能力去描述微表情微小的变化;
作者在CNN加了循环卷积层,就变成了RCN;
公式6表示的是RCL层第k个特征映射的输入值?
the normalized activation function = 归一化激活函数 ;有什么用?
RC网络 = 一个前馈卷积层 + 多个循环卷积层;
每个循环卷积层之间或者卷积层之间都要进行池化操作进行降维;
在全局池化前得到的是一个向量;
这个向量是所有的特征映射被连接在一起的;

3-E. Parameter Learning 参数学习
有限样本和不平衡的类都会让参数学习存在问题;
不平衡的类指的是不一样的类样本个数不同;
样本少会导致过拟合问题;
作者为了解决这个问题,设定了两个概念:
多类平衡损失;
多尺度数据增强;
公式10当中的β和类的样本和这个类在处理中的样本的比例成反比;
应该是所有类的样本平均,对loss影响最小;
多尺度数据增强是从两个方面增加样本量;
第一个是每个种类的样本都扩大5~14倍;
第二个是在视频中提取帧重复?

4-A A. Implementation Detai
IIR滤波器是什么?
时间处理要滤波器干嘛?
时间归一化操作 → 固定张量

4-B Micro-expression Datasets and Setups
分析四类情绪——积极、消极、惊讶、其他;
LOSO是留一人;
LOVO是留一个样本;
既然用留一法,为什么又有5%的数据用作验证集呢?

4-C Visualization of Intermediate Procedure
空间处理得到切割好的人脸;
时间处理加大表情动作的变化;

4-D Comparison in LOSO Protocol

上一篇:Fine-Tuning and the Stability of Recurrent Neural Networks


下一篇:Deep Q-Learning with Recurrent Neural Networks