python-使用大型(15 gb)CSV数据集和Pandas / XGBoost

我试图找到一种方法来开始在Pandas中处理非常大的CSV文件,最终能够使用XGBoost进行一些机器学习.

在使用mySQL或某些sqllite框架管理数据块之间,我陷入了困境.我的问题在于稍后的机器学习方面,以及一次加载大块数据以训练模型.

我的另一个想法是使用Dask,它是由Pandas构建的,但也具有XGBoost功能.

我不确定最好的起点是什么,并希望征求意见!我倾向于Dask,但尚未使用.

解决方法:

This blogpost通过在大型CSV数据集上使用XGBoost的示例.但是,它是通过使用具有足够RAM的分布式群集来一次将整个数据集放入内存中来实现的.尽管许多dask.dataframe操作可以在很小的空间中进行操作,但我认为XGBoost培训可能不是其中之一.当所有数据始终可用时,XGBoost似乎运行得最好.

上一篇:Android App测试要点


下一篇:python-xgboost预报_proba:如何做概率和标签之间的映射