参考自:https://www.cnblogs.com/lzida9223/p/10972783.html
1.relu虽然是分段的非线性映射函数,但是对于两个输入A和B,它们所经历的计算路径是不同的,就是同是WX+b,但是参数经过反向梯度更新了(个人理解)。
2.知乎上关于Relu是否可拟合任意函数的回答:
https://www.zhihu.com/question/58304333
太理论化了,遂中止。
3.如果想要深入理解,可以看http://papers.nips.cc/paper/5422-on-the-number-of-linear-regions-of-deep-neural-networks
线性激活函数也可以组合成很多的空间。