自然图像:自然图像就是照相机根据感光单元拍摄出来的,平时手机拍摄的都算。非自然图像就是另外像放射成像,功能性成像,磁共振成像,超声成像等等通过其他手段转成图像。
冗余:汉语词汇,拼音rǒng yú,英文是redundancy redundance。意思是多余的重复或罗嗦内容
判别学习方法:直接对 p(y|x)进行建模或者直接学习输入空间 到输出空间的映射关系,其中,x 是某类样例的特征,y 是某类样例的分类标记。
离线学习:所有的训练数据在模型训练期间必须是可用的。只有训练完成了之后,模型才能被拿来用。简而言之,先训练,再用模型,不训练完就不用模型。
在线学习:恰恰相反,在线算法按照顺序处理数据。它们产生一个模型,并在把这个模型放入实际操作中,而不需要在一开始就提供完整的的训练数据集。随着更多的实时数据到达,模型会在操作中不断地更新。
对于空间信号,欠采样和过采样就是信号处理中的under-sample和over-sample。其中心思想是根据采样定理,数字信号能保存的最大频率是其采样频率的1/2。
• 欠采样是采样频率小于信号最大频率的2倍,会有频谱的叠加,产生混叠。
• 过采样是采样频率远大于信号最大频率的2倍,会增加计算量,在数字换模拟信号时,还会增加模拟噪声。
对于非空间信号,欠采样和过采样是对数据的down/sub-sample和up-sample,参考这里。其目的是调整数据量,或者做分类平衡(class balance)。
• 欠采样:只想用少量数据代表大量的原始数据。比如k-means里用mean代表一簇数据。Random forest也可以认为是对数据点和特征做down-sample。
• 过采样:生成新数据或重复采样。比如SMOTE,bootstrap。