数据挖掘 - 减少变量数量的技术

2023-10-25 19:19:58

在数据挖掘中，数据是多多益善，拥有大量的数据可以不依赖复杂的统计或分布假设就可以测试模型有效性，有利于简化问题。
拥有大量的变量能建立功能更强大的模型。可以获取更多客户行为上的细微差别，建立稳定的模型。但变量的数量越大，意味着输入数据可能很稀疏，分布到每个网格的数据可能会非常少，增大，过拟合的风险。所以需要减少变量数量。
变量太多的问题：输入变量之间高度相关；数据集稀疏性问题；过拟合风险；
减少变量数量的方法有：主成分分析、前向选择、变量聚类等。