"模态"一词原来在《自动控制原理》里面见过,但是到了深度学习,意思不太一样了。
在Group Activity Recognition任务下,包含了多模态特征的fusion:
比如表观特征和运动特征;(CNN+GNN)
比如backbone中的序列图片I3D和单张RGB图片的Pose;
所以个人认为“多模态”就是“多类特征”,
因此有人讨论acc的提升,到底是backbone“多模态”带来的结果,还是整体设计思路更新颖了。
2024-04-08 22:59:28
"模态"一词原来在《自动控制原理》里面见过,但是到了深度学习,意思不太一样了。
在Group Activity Recognition任务下,包含了多模态特征的fusion:
比如表观特征和运动特征;(CNN+GNN)
比如backbone中的序列图片I3D和单张RGB图片的Pose;
所以个人认为“多模态”就是“多类特征”,
因此有人讨论acc的提升,到底是backbone“多模态”带来的结果,还是整体设计思路更新颖了。