在数据挖掘中,数据是多多益善,拥有大量的数据可以不依赖复杂的统计或分布假设就可以测试模型有效性,有利于简化问题。
拥有大量的变量能建立功能更强大的模型。可以获取更多客户行为上的细微差别,建立稳定的模型。但变量的数量越大,意味着输入数据可能很稀疏,分布到每个网格的数据可能会非常少,增大,过拟合的风险。所以需要减少变量数量。
变量太多的问题:输入变量之间高度相关;数据集稀疏性问题;过拟合风险;
减少变量数量的方法有:主成分分析、前向选择、变量聚类等。
相关文章
- 10-25数据挖掘 - 减少变量数量的技术
- 10-25《推荐系统:技术、评估及高效算法》一第2章Recommender Systems Handbook推荐系统中的数据挖掘方法
- 10-25PLUTO平台是由美林数据技术股份有限公司下属西安交大美林数据挖掘研究中心自主研发的一款基于云计算技术架构的数据挖掘产品,产品设计严格遵循国际数据挖掘标准CRISP-DM(跨行业数据挖掘过程标准),具备完备的数据准备、模型构建、模型评估、模型管理、海量数据处理和高纬数据可视化分析能力。
- 10-25必看!!大数据技术学习,深度挖掘大数据的现状分析
- 10-25《中国人工智能学会通讯》——4.28 数据挖掘技术在电子数据取证中的应用
- 10-25【炼数成金 RapidMiner 一 】数据挖掘概念与技术原书第三版(第一章)1.9节的习题解
- 10-25NLPIR数据挖掘是AI技术在NLP上的应用