Abstract
1 在理想的情况下,所有的模态都是完整的,但是现实生活中,可能存在模态数值缺失或者噪声混入使得多模态数据呈现出不完整的特征(imperfect)。
2 先前的工作探索了融合特征的低秩结构,但是仅仅考虑了一阶的时序动态(temporal dynamics)。本文提出了Time Product Fusion Network (TPFN),将模态以及时序动态的高阶(high-order)考虑在内。并且证明了低秩结构可以通过约束潜在因素的Frobenius norm实现。
3 在随机化或者结构化缺失值的前提下(random and structured missing values.),于CMU-MOSI以及MOSEI两个数据集上验证了模型的有效性。
Introduction
1 尽管在理想的情景下(数据完整)多模态情感分析得到了充分的发展,但是当数据不完善时,仍然具有挑战性。
2 Liang等人证明了从不完整数据获得的表示具有的低秩结构,并以此提出了一种基于低秩正则化的模型,称为时间张量融合网络(T2FN)。虽然得到不错的效果,但是存在以下的两个不足:(一)没有充分考虑到在时序方面上的数据动态(data dynamic) (二)如果特征维度或者时间戳较大的时候,计算量会很大
3 本文做法:(一)考虑不同的时间戳 (二)使用CP分解来近似张量的权重。由下图可见与上述做法的不同。
Model
本文主要聚焦于time product fusion (TPF)以及low-rank inference module (LIM)
1 time product fusion (TPF)
- 加1的目的:retain the intra-modal correlation for each modality
- unimodal information
- inter-modality interaction
- inter-modality interaction
- pooling by summation on all M to obtain the final fused features
- reflects the interaction across not only multiple modalities but also time steps
现还存在一个问题,就是M的size会随着维度的增长而增长使得计算困难。
2 Low-rank Inference Module
Experiment
CP分解就是将一个张量分解成多个单秩张量的和。