我有两个二维的数据集:(X1,Y1)和(X2,Y2).
我希望能够计算KS测试统计量,以确定这两个数据集中的值是来自相同还是不同的分布.我之前使用过scipy.stats.ks_2samp,但这是比较一维中的两个数据集或两个样本的概率分布.但是,在这种情况下,我不拘泥于概率分布,而是两个样本的离散x和y值.在这种情况下,我如何继续在python中获取ks测试值?对于每个参数X1,Y1,X2和Y2,我都有单独的numpy数组.
谢谢!
解决方法:
This Notebook提供了2个示例的2D K-S测试的Python实现.该.py文件可以下载here.该代码似乎是C代码的译文,如果样本量很大,效率可能会成为问题.
更多信息
该算法首先在两篇论文中开发
> Peacock, J.A. 1983, Two-Dimensional Goodness-of-Fit Testing in Astronomy
> Fasano, G. and Franceschini, A. 1987, A Multidimensional Version of the Kolmogorov-Smirnov Test.
一个很好的介绍和C实现可以在下面找到
> Press, W.H. et al. 1992, Numerical Recipes in C,第14.7节,第645页.
您可以在本书的其他版本中找到C / Fortran实现.
这里的标题为Beware the Kolmogorov-Smirnov test的帖子也与此主题相关,您可能需要看看.
更新资料
我还编写了一个使用numpy的python实现,它应该具有更好的性能.您可以找到代码here.
最好与原始论文/书核对代码(无论是哪一种). 2d KS测试的python实现要比numpy / scipy中的实现少得多.