python – 有没有办法测试数据X和二进制输出Y之间的相关性?

我正在尝试找到一个Python方法/库来测试自变量X和二进制输出Y之间的相关性.

例如,假设我有以下数据和输出:

X Y
0.65 1
0.11 0
0.13 0
0.35 1
0.21 0

假设如果(X> 0.3)则输出Y为1,否则为0.如果我不知道这种相关性(阈值0.3),是否有统计方法/测试来找出X和Y之间的相关程度?

例如,一些返回的方法

x = [0.65, 0.11, 0.13, 0.31, 0.21]
y = [1, 0, 0, 1, 0]
print some_test(x, y)

==> returns "degree of correlation = 1.0"

谢谢

解决方法:

您正在寻找一个point biserial correlation,当您的一个变量是二分的时使用.

from scipy import stats
stats.pointbiserialr(x,y)

如果您只是想知道X是否根据Y的值而不同,您应该使用t检验.

上一篇:如何检查两个数据集的匹配列之间的相关性?


下一篇:python – Numpy – 相关系数和相关的统计函数没有给出相同的结果