原文链接: Semblance: An empirical similarity kernel on probability spaces
Abstract
在数据科学中,确定观测值之间的接近度对于许多下游分析(例如聚类,分类和预测)至关重要。但是,当数据的潜在概率分布不清楚时,通常会随意选择用于计算数据点之间相似度的函数。在这里,我们提出了一种新的近似度定义,即“相似度”,它使用特征的经验分布来告知观测值之间的成对相似性。Semblance的优势在于其无分布公式,并且能够更加侧重于位于数据分布郊区而不是面向中心的观测对之间的邻近度。Semblance是有效的Mercer内核,允许其原则上用于基于内核的学习算法以及任何数据形式。
Introduction
在现代数据分析中,数据通常首先简化为表示观察值之间两两相似度的接近矩阵,它成为下游分析(如聚类、分类和预测)的输入。这个距离矩阵既是一个信息映射,同样也是一个瓶颈。前者,因为对下游分析算法可用的所有信息都表示在矩阵中,而后者,因为矩阵必须传输足够的数据信息,以便任何下游方法能够完成其任务。在探索性数据分析中,基于欧几里德距离或相关性的度量是推断接近性的常用方法(1-3),尽管针对特定任务设计了更复杂的、特定上下文的选择(4,5)。
在过去的二十年里,高效的基于核的学习算法及其再现核希尔伯特空间(RKHS)解释引起了人们的广泛关注。具体地说,研究集中于开发满足Mercer条件的距离矩阵(proximity matrix),这将允许使用易于理解的线性算法在数据中检测复杂的非线性模式(6-8)。这种接近矩阵被称为Mercer核,构成了几个最先进的机器学习系统的核心。**构建一个相似函数或距离矩阵相当于encoding our prior expectation about the possible patterns,这些patterns是我们希望能在一个给定的特征空间中学习到的。**因此,它是现实世界数据建模的关键步骤(9,10)。现实世界中的噪声分布通常是非椭圆的,具有连续和离散的特征。然而,在数据分析的初始阶段,当数据概率空间的底层结构不清楚时,相似性/距离度量的选择通常是任意的。在探索性数据分析中,通常很少有先验知识来指导距离/相似性度量的选择,更不用说有效的Mercer核的设计了。因此,即使基于核的机器学习算法变得复杂,由于缺乏更明智的选择,我们在数据分析的探索阶段通常默认依赖欧几里德距离或皮尔逊相关性。
在这里,我们提供了一个通用的、现成的核函数Semblance,它使用了所有观察结果中的一个特征的经验分布来告知每一对之间的接近程度。对离散特征,Semblance强调rare feature value的一致性;对连续特征,关注数据分布外围点之间的接近性。这使得Semblance能够揭示被当前常用的内核度量所掩盖的数据结构。我们首先用一个具体的例子来描述Semblance背后的直觉,然后证明它是一个有效的Mercer核,因此可以用于任何基于核的学习算法(11)。然后,在简化但透明的模拟实验下,我们系统地探索了我们可以期望使用外表与其他常见方法(如欧几里德距离)来识别的模式类型。相似性通过适应经验数据分布,对生态位特征具有较高的敏感性。通过几个领域的例子——单细胞生物学、图像分析和金融——我们演示了如何使用相似性核。
Constructing the rank-based semblance function
假设我们从 N n ∗ G N_{n * G} Nn∗G开始,n行G列的数据矩阵。让每一行对应一个对象,每一列对应为所有对象测量的一个特征。我们想构造一个与对象相关的相似核。为了便于记数,设 X = ( x 1 , … , x g , … , x G ) X = (x_1,…,x_g,…,x_G) X=(x1,…,xg,…,xG)和 Y = ( y 1 , … , y g , … , y G ) Y = (y_1,…,y_g,…,y_G) Y=(y1,…,yg,…,yG)是两个对象,即矩阵 N n ∗ G N_{n * G} Nn∗G中的两行。
考虑这样一个特性,大多数对象记录值“1”,只有极少数对象记录值“0”。现在,考虑两个对象,它们都记录了此特性的罕见值“0”。这是这两个物体之间相似的更有力的证据,而不是两个都记录了更典型的值“1”的情况?直观地说,两个独立的对象在罕见值上达成一致的可能性要比在共同值上达成一致的可能性大得多,因此,两个对象在许多特性上达成一致的罕见值表明它们可能属于一个共同的小众群体。类似地,对于连续值特征,两个独立的图形之间的绝对距离在分布的尾部比在分布的中心更不可能接近。因此,对于离散特征,我们希望reward对象之间在罕见特征值上的一致,而对于连续特征,我们希望reward对象之间在经验分布尾部的接近性。此外,为了增强鲁棒性,相似函数应是非参数的和不变的特征的单调变换。这些都是构成Semblance的基础。
更正式地说,对于给定的特征
g
g
g,设
P
g
ℙ_g
Pg为其潜在的概率分布。设该特征
g
g
g在对象
X
X
X和
Y
Y
Y中的观测值分别为
x
g
x_g
xg和
y
g
y_g
yg。在实践中,我们一般不知道
P
g
ℙ_g
Pg,但如果我们知道了,就可以问我们的可能性有多大,如果我们重新画的两个值
(
x
g
,
y
g
)
(x_g, y_g)
(xg,yg),获得距离等于或小于实际观察到的距离,同时保护两者之间的秩序。假设
Z
Z
Z是重画,那么这个可以表示为概率
上面的概率是特征
g
g
g任意两个值之间不相似度的度量(见图1)。一个微妙但重要的细节是,公式1中的概率同时包含端点
x
g
x_g
xg和
y
g
y_g
yg,因此
p
g
(
x
g
,
x
g
)
=
P
{
x
g
}
>
0
p_g (x_g, x_g) =ℙ\{xg\} > 0
pg(xg,xg)=P{xg}>0。这种接近性定义是可取的,因为它自然地将信息包含在生成数据的潜在概率度量中。例如,如图1所示,在二进制设置中,如果0的概率很低,那么两个观测结果都等于0的情况就非常罕见,因此,
x
g
=
y
g
=
0
x_g = y_g = 0
xg=yg=0的“reward”取决于0处的概率质量。类似地,在连续设置中,
x
g
x_g
xg和
y
g
y_g
yg之间的接近奖励取决于它们在分布中的位置。对于相同线性距离的
x
g
x_g
xg和
y
g
y_g
yg,二者落在分布中心时的差异大于落在尾部时的差异。
在实际应用中,
P
g
ℙ_g
Pg是未知的,但在足够大的样本容量下,经验分布
P
g
^
\hat{ℙ_g}
Pg^可以很好地逼近,因此将式1中的
P
g
ℙ_g
Pg替换为
P
g
^
\hat{ℙ_g}
Pg^,得到的插入式经验估计
P
g
^
(
x
g
,
y
g
)
\hat{P_g} (x_g,y_g)
Pg^(xg,yg)。这让人想起经验贝叶斯方法,在这种方法中,所有观测值的信息都被借用来告知我们在任何给定的对之间的不相似性评估。我们定义
为严格落在区间
[
x
g
,
y
g
]
[x_g, y_g]
[xg,yg]外的经验概率(译者注:这玩意不就是n个示性函数的均值么)。如果
m
i
n
(
x
g
,
y
g
)
≤
N
i
g
≤
m
a
x
(
x
g
,
y
g
)
min(x_g, y_g) ≤ N_{ig} ≤ max (x_g, y_g)
min(xg,yg)≤Nig≤max(xg,yg),则指示符
I
I
I返回1,否则返回0。
假设特征
g
g
g是连续的,因此每个观测值都是唯一的,设
r
X
r_X
rX,
r
Y
r_Y
rY为该特征在
n
n
n个对象中所有观测值中
x
g
x_g
xg,
y
g
y_g
yg的秩。然后,
k
g
k_g
kg可以简单地表示为等级(rank)的函数:
然而,对于离散特征,
k
g
(
X
,
Y
)
k_g(X, Y)
kg(X,Y)的计算由于捆绑而较为复杂。然而,计算
k
g
(
X
,
Y
)
k_g(X, Y)
kg(X,Y)通常是简单和快速的。在“Materials and Methods”中提供了一个算法示例。
我们现在将Semblance函数定义为
w
g
w_g
wg对应于每个功能的相对权重或重要性。当有可靠的领域知识来确定特征的优先级时,就应该使用这些知识来构造权重。当没有先验信息可用时,可以使用反映特征分布形状的权重,例如,正值特征的基尼系数或实值特征的负熵的稳健近似。在我们的实验中,我们发现在大多数情况下,把所有功能都同等重要
(
w
g
=
1
)
(w_g = 1)
(wg=1)会得到不错的结果。
由于 P g ^ ( x g , x g ) ≤ P g ^ ( x g , y g ) \hat{P_g}(x_g,x_g)≤\hat{P_g}(x_g,y_g) Pg^(xg,xg)≤Pg^(xg,yg),如果 x g ≠ y g x_g≠y_g xg=yg,则对 ∀ X ≠ Y ∀X≠Y ∀X=Y,有 K ( X , X ) ≥ K ( X , Y ) K(X, X)≥K(X, Y) K(X,X)≥K(X,Y)。
因此,当应用于任何数据矩阵 N N N时,该函数输出一个对称的 n ∗ n n * n n∗n矩阵,其行和列在对角线上最大化。
Results
Semblance is a valid Mercer kernel
该部分证明略,看不懂…
Semblance is conceptually different from rank-based similarity measures
由于,在所有特征都是连续的情况下,相似性可以简化为秩上的函数,我们首先阐明它与现有的基于秩的相似度量:Spearman’s rho ( ρ ρ ρ)和Kendall 's τ ( τ τ τ)的区别。从构造上看,Semblance在两个方面与这些现有的措施有根本的不同。首先,当 ρ ρ ρ和 τ τ τ是基于排名计算排序的值在每个对象(矩阵的行N),表面上使用排名由排序计算值在每个特性(矩阵的列N)。因此,表面上内核会产生值与这两个很大的不同措施。其次,Semblance对待关系不同于简单的基于等级的方法,比如许多对象共享的关系会降低这些对象之间的距离。这种对纽带的处理,对于离散的数据,使Semblance对数据中的小生境亚群更加敏感。因此,通过经验贝叶斯的视角可以更好地理解Semblance,其中,对于每个特征,所有对象的经验分布告诉我们对每一对对象之间相似性的评估。
Simulations
模拟允许我们在简化但可解释的设置下比较相似性/距离度量的有效性。我们用模拟比较相似性与欧氏距离、pearson相关性和spearman相关性在无监督环境下区分两组的能力。我们从两组模型中进行了模拟,其中多变量对象来自第1组的概率
q
<
0.5
q < 0.5
q<0.5,或来自第2组的概率
1
−
q
1 - q
1−q。让每个对象包含
m
m
m个特征,独立绘制,
p
∈
(
0
,
1
)
p∈(0,1)
p∈(0,1)的特征比例为信息。第1组的信息特征分布为
P
I
,
1
P_{I,1}
PI,1,第2组的信息特征分布为
P
I
,
2
P_{I,2}
PI,2。其余的特性是非信息性的,并且在两个组中具有相同的分布
P
N
I
P_{NI}
PNI。我们考虑了特征的连续分布和离散分布。在连续的情况下,特征由下式(7)生成:
在离散的情况下,特征由式(8)生成:
当然,在计算相似度/距离矩阵时,不需要考虑特征是否具有信息性,以及对象是否来自第1组或第2组。
如图2A所示,在每次模拟运行中,我们生成
n
n
n个对象,第一个
n
1
=
q
n
n_1 = qn
n1=qn来自第1组,第二个
n
2
=
(
1
−
q
)
n
n_2 = (1 - q)n
n2=(1−q)n来自第2组。我们的目标是检测少数群体1的存在,并将对象分配给适当的群体。相似性(Semblance,Pearson和Spearman)和距离(Euclidean)是在这些数据的基础上计算出来的,每一个都会产生一个
n
∗
n
n * n
n∗n的矩阵,我们称之为
S
S
S。令
然后, S ˉ 11 \bar{S}_{11} Sˉ11是第1组对象之间的平均相似度/距离, S ˉ 22 \bar{S}_{22} Sˉ22是第2组对象之间的平均相似度/距离, S ˉ 12 \bar{S}_{12} Sˉ12是组之间的平均相似度/距离。为了量化 S S S中的信号,我们设 T 1 = ( S ˉ 11 − S ˉ 12 ) / s e 1 T_1=(\bar{S}_{11}−\bar{S}_{12})/se_1 T1=(Sˉ11−Sˉ12)/se1, T 2 = ( S ˉ 22 − S ˉ 12 ) / s e 2 T_2=(\bar{S}_{22}−\bar{S}_{12})/se_2 T2=(Sˉ22−Sˉ12)/se2,其中 s e 1 se_1 se1和 s e 2 se_2 se2是分子中差异的标准误差。因此,如果 T 1 T_1 T1和 T 2 T_2 T2的值是一个较大的正数,意味着基于 S S S的下游算法能够很好地将两组分离开来。
图2b显示了
n
=
m
=
100
n=m=100
n=m=100时的模拟示例集
T
1
T_1
T1和
T
2
T_2
T2的值,信息特征(informative features)的比例是10%,罕见的分组比例是10%,并且每一个特征都服从Eq.7的正态分布。
μ
=
2
μ= 2
μ=2,
σ
1
σ_1
σ1,
σ
2
σ_2
σ2从
0.1
0.1
0.1到
1
1
1变化。最上面一行的热图显示了
T
1
T_1
T1的值,最下面一行的热图显示了四种相似/距离度量的每个值的
T
2
T_2
T2值。
我们看到,Semblance的表现在欧几里德距离、皮尔逊和斯皮尔曼的基础上有改善,在较宽的参数范围内,得到了
T
1
T_1
T1和
T
2
T_2
T2的较大值,尤其是当
σ
2
σ_2
σ2很小的时候。图2c是另一组模拟,其中
n
n
n、
m
m
m、
p
p
p的值与图2b相同,但在(Eq 8)的模型下,当参数
r
2
=
0.5
r_2 = 0.5
r2=0.5,
r
1
r_1
r1在
0.01
0.2
0.01 ~ 0.2
0.01 0.2,
q
q
q在
0.05
0.5
0.05 ~ 0.5
0.05 0.5。我们可以看到,在本例中,除了Semblance外,所有测量在T2中都没有信号,Pearson相关和Spearman相关在大部分参数范围内都不能将两组分开。相比之下,对于大部分的探测参数区域来说,Semblance给出的T1和T2的值都很大。
Semblance kernel-tSNE identifies a niche retinal horizontal cell population
Semblance kernel PCA is efficient at image reconstruction and compression
Semblance performs comparably with domain-specific kernel support vector machines in stock market forecasting
Discuss
我们提出了一种用于多元数据分析的新的相似核——Semblance。相似性依赖于一种简单的直觉,即经验观察到的每个特征的分布应该用来奖励在特征空间的低概率区域中物体之间的接近性。因此,Semblance对于检测数据中的生态位特征非常敏感。我们已经证明了Semblance是一个有效的Mercer核,因此可以在基于核的学习算法中有原则地使用。从计算的角度来看,Semblance能够以较低的计算成本提取数据的经验分布特征。它自然地只依赖于排序的特征值,因此非常健壮。我们评估了Semblance,并通过模拟和各种真实世界的例子将其与一些常用的相似度度量进行了比较,展示了Semblance可以改进下游分析的场景。
内核化学习(kernelized learning)方法在各种各样的应用和学科中都非常有用,特别是因为它们能够在复杂的非线性空间中映射数据(6,25,28)。最常见的是,内核被用来比较和分类对象,例如,在聚类算法(7);然而,Mercer内核还有另一个重要的解释,即它们反映了数据中局部特征集之间的相似性。Semblance通过在概率空间上定义一个通用的相似度量来利用后一个概念,即使在数据之间没有明显的对应关系的时候。满足Mercer条件保证Semblance将保证下游学习算法的唯一全局最优解(35)。相似作用于高维隐式特征空间,可应用于任何数据域。我们预计,它还将在“多内核学习”方法中找到实用程序,在这种方法中,多个内核经常被组合在一起,以从异构数据源中学习。