我正在尝试找到一个Python方法/库来测试自变量X和二进制输出Y之间的相关性.
例如,假设我有以下数据和输出:
X Y
0.65 1
0.11 0
0.13 0
0.35 1
0.21 0
…
假设如果(X> 0.3)则输出Y为1,否则为0.如果我不知道这种相关性(阈值0.3),是否有统计方法/测试来找出X和Y之间的相关程度?
例如,一些返回的方法
x = [0.65, 0.11, 0.13, 0.31, 0.21]
y = [1, 0, 0, 1, 0]
print some_test(x, y)
==> returns "degree of correlation = 1.0"
谢谢
解决方法:
您正在寻找一个point biserial correlation,当您的一个变量是二分的时使用.
from scipy import stats
stats.pointbiserialr(x,y)
如果您只是想知道X是否根据Y的值而不同,您应该使用t检验.