Extreme Learning Machine(ELM)的工程哲学
David_Wang2015 发布于2015年5月6日 11:29
工程问题往往需要的是一定精度范围内的结果,而不是“真正的”结果。得到问题解的一般方式是迭代求解,而ELM的求解方式是利用随机数和大数定律求解,这种方法论在20世纪40年代蒙特卡洛求积分(用于曼哈顿计划)、80年代的模拟退火(求解复杂优化问题)、90年代的Turbo码(首次使信道编码达到香农极限)、21世纪初的压缩感知、鲁邦主成分分析都有体现。注意,不是简单地使用随机,因为那给不出一定精度的结果。一定要将随机和大数相结合才能成为工程利器,因为在理论上有大数定律所支撑,使得算法可以在时间和精度上同时达到保证。这也是ELM隐节点一般取1000以上的原因。
目前的单隐层ELM在函数逼近论和统计学习理论意义下的收敛结果已经有证明,可以说在理论上与一般的前馈神经网不分伯仲。但真正要解决问题还得细致到具体的工程应用中。比如很火的卷积神经网,它是在深刻洞察了具体应用的基础上给出的模型。神经网络理论只保证“前馈神经网”存在一个函数模型适合工程应用,但那个模型是什么,还得靠工程师们自己对问题的理解和洞察。同样,ELM如果要在各种应用中更上一层,合理的结构设计和隐节点的生成方式的研究是必不可少的。
PS: 我自己喜欢将ELM译为极度学习机,感觉这种翻译的优势有3点。首先,与深度相对应,体现了造词或翻译的一种习惯,即反义模仿,如中文的买和卖就是模仿造词;其次,在当今“深度学习”深入人心的基础上,“极度学习”这种叫法也会为方法的普及带来好处;第三,相比于中文文献中目前较流行的翻译,比如极限学习、极端学习,个人感觉极度学习更好地体现了ELM工程哲学。