从正的和未标记的数据中学习的变分方法
摘要
仅从正样本和未标记的样本中学习二类分类器在许多实际应用中是一项重要且具有挑战性的任务。
大多数最近的PU学习方法是基于监督学习类型的错误分类风险开发的,并且它们可能遭受对类先验概率的不准确估计。
在这篇文章中,我们引入了一个变分原理用于概率单元学习,它允许我们直接从给定的数据中定量评估贝叶斯分类器的建模误差。这导致损失函数可以被有效地计算,而不涉及类先验估计或任何其他中间估计问题,然后变分学习方法可以被用于在一般条件下优化分类器。我们在一些基准例子上说明了所提出的变分方法的有效性。
1 Introduction
在许多实际应用中,我们面临着从大量正数据和大量未标记数据中构建二元分类模型的任务,而无需关于负数据的额外信息。比如疾病基因鉴定[1]中常见的只有已知的疾病基因和未知基因可用,因为可靠的非疾病基因很难获得。类似的场景出现在欺骗性评论检测[2]、web数据挖掘[3]、基于内联的离群值检测[4]等。这样的任务当然超出了标准监督机器学习的范围,而在这种情况下,正的无标签(PU)学习就派上了用场。
许多启发式方法[5–8]是通过从未标记数据中识别可靠的负数据而提出的,这些方法严重依赖于启发式策略的选择和数据可分性的假设(即正数据和负数据不重叠)。秩剪枝(RP) [9]提供了一种更通用的方法,将PU学习视为一个特定的带噪声标签的正负学习问题,但数据可分性对于一致噪声估计仍然是必要的。
在[10,11]中开发的风险估计器为PU学习提供了一个有效的解决方案。它通过以下方式计算分类器
Φ
\Phi
Φ的风险
r
i
s
k
(
Φ
)
=
π
ρ
E
l
a
b
e
l
e
d
d
a
t
a
[
ℓ
+
(
Φ
(
x
)
)
−
ℓ
−
(
Φ
(
x
)
)
]
+
E
u
n
l
a
b
e
l
e
d
d
a
t
a
[
ℓ
−
(
Φ
(
x
)
)
]
risk(\Phi)=\pi \rho E_{labeled\ data}[\ell_+(\Phi(x)) - \ell_-(\Phi(x))]+E_{unlabeled\ data}[\ell_-(\Phi(x))]
risk(Φ)=πρElabeled data[ℓ+(Φ(x))−ℓ−(Φ(x))]+Eunlabeled data[ℓ−(Φ(x))]
并且可以通过经验平均实现预期误分类风险(在监督学习的意义上)的无偏估计,其中
ℓ
+
\ell_+
ℓ+,
ℓ
−
\ell_-
ℓ−分别表示正数据和负数据的误分类损失,而
π
ρ
\pi\rho
πρ=
P
\mathbb{P}
P(y = +1)表示类先验,即正样本数据在未标记样本中的比例。当
π
ρ
\pi\rho
πρ已知时,可以通过最小化估计风险来训练分类器。然而,这种方法容易导致严重的过拟合。为了解决这个困难,在[12]中提出了一个非负风险估计器,它是有偏的,但对统计噪声更稳健。在[13]中提出了另一种基于错误分类风险的方法,称为PULD,其中PU学习被公式化为给定
π
ρ
\pi\rho
πρ的最大裕度分类问题,并且可以通过有效的凸优化器来解决。但是这种方法只适用于不可训练特征空间中的线性分类器。
最近,生成对抗网络(GAN)在PU学习中的应用也受到了越来越多的关注[14,15],其中生成模型学习生成假的正样本和负样本(或仅负样本),并且通过使用假样本来训练分类器。实验表明,当正标签数据的大小极小时,GAN可以提高PU学习的性能,并且在 π ρ \pi\rho πρ的精确值可用的条件下,可以证明渐近线的正确性[14]。
类先验估计问题 如前所述,类先验 π ρ \pi\rho πρ在PU学习中起着重要作用,但是它不能被自动选择为可训练参数。例如,当试图最小化(1)中定义的风险时, π ρ \pi\rho πρ和分类器, π ρ \pi\rho πρ=1我们观测到糟糕的情况,所有数据都被预测为正的。此外,也很难通过交叉验证将 π ρ \pi\rho πρ调整为超参数,除非验证集中有一些负数据。因此,在许多实际应用中,需要类先验估计方法[16–19],这通常涉及内核机器,并且计算成本相当高。此外,文献[12]中的实验分析表明,不准确的估计会严重影响分类性能。
Contributions 鉴于上述评论,很自然地会问,在不解决硬类先验估计问题作为中间步骤的情况下,在PU学习中是否可以获得准确的分类器。基于这个问题,我们在这篇文章中引入了一个变分原理,它允许我们仅使用标记和未标记数据的分布,以一种无类先验的方式来评估给定分类器和理想贝叶斯分类器之间的差异。因此,人们可以通过变分优化有效且一致地逼近贝叶斯分类器。理论和实验分析表明,与现有方法相比,基于变分原理的方法在不需要估计类先验或假设数据可分性的情况下,可以在PU学习任务中获得较高的分类精度。表1提供了VPU和选定的先前方案的简单算法和理论比较。
5 Experiments实验
在本节中,我们测试了VPU在合成数据集和真实数据集上的有效性。我们提供了广泛的消融研究来分析(8)定义的正则化。考虑到选择偏差在实践中很常见,我们在这个场景中测试了VPU和现有方法的有效性。最后,通过不同大小的标签集的实验,进一步证明了VPU算法的鲁棒性。
5.1 实施细节 Implementation details
在VPU计算分类精度时,类别标签预测为 y \mathcal{y} y = sign( Φ \Phi Φ(x) - 0.5) .在所有的实验中, α \alpha α被设定为0.3并且 λ \lambda λ ∈ \in ∈ {1e-4,3e-4,1e-3,…,1,3} 除非另有说明,否则由保持验证决定。我们使用Adam作为具有超参数($\beta 1 , 1, 1,\beta$2) = (0.5,0.99)的VPU优化器。
将VPU的性能与最近开发的一些PU学习方法进行了比较,包括基于无偏风险估计器的uPU和nnPU [10,12],基于生成模型的GenPU [14],以及在[9]中提出的秩修剪(RP)。4请注意,uPU和nnPU需要类比例的先验知识。因此,为了公平比较,当实现uPU和nnPU时,通过[32]中提出的KM2方法估计 π ρ \pi\rho πρ,其中KM2是最先进的类先验估计算法之一。对于GenPU,算法的超参数是通过贪婪网格搜索确定的,如《补充资料》第二节所述。
软件代码可从下载
https://github.com/kiryor/nnPUlearning
https://qibinzhao.github.io/index.html
https://github.com/cgnorthcutt/rankpruning.
在所有方法中,UCI数据集的分类器(包括根普的鉴别器)由7层MLP建模,时尚数据集的分类器由LeNet-5 [33]建模,而CIFAR-10和STL-10的分类器由7层CNN建模。默认情况下,准确性在测试集上进行评估,平均值和标准偏差值由10次独立运行计算得出。数据集和算法的所有其他详细设置都在《补充资料》的B节中提供,VPU的软件代码也可用。
5.2 基本数据
我们在取自UCI机器学习知识库[34,35]的三个基准数据集上进行了实验,分类结果见表2。可以看出,VPU在几乎所有数据集上都优于其他方法,具有高精度和低方差。nnPU和uPU都存在 π ρ \pi\rho πρ的估计误差。
事实上,如果 π ρ \pi\rho πρ精确给定,nnPU可以实现更好的性能,尽管这样仍然比VPU差一点。(参见《补充材料》中的第二节。)此外,RP将未标记数据解释为有噪声的负数据,当正数据在未标记数据中的比例较小时,可以得到准确的分类器。但在比例过大的相反情况下,RP的表现甚至比随机猜测还要差。( π ρ \pi\rho πρ=0.896和0.635在页面块中,具有“文本”对“水平线”,垂直线,图片,图形和网格稳定性具有“不稳定”对“稳定”。)
表格1 |
---|
####5.3 图像数据集
在这里,我们比较了三个图像数据集上的所有方法:FashionMNIST、CIFAR-10和STL-10。请注意,在本文的其余部分,我们按照torchvision 0.5.0中的默认设置,用0到9的整数表示每个图像数据集的10个类别(请参见《补充资料》中的B节)。6分类精度收集在表3中,其中也标记了VPU的优越性(其他比较指标请参见B.8节)。这里,由于过拟合问题,uPU的性能比nnPU差得多[12]。此外,由于发电机的模式崩溃,发电机组的性能也不令人满意(见《补充材料》第二节)。
6 总结
在这项工作中,我们提出了一种新的变分原理,并开发了一种有效的学习方法称为变分PU (VPU)。此外,利用基于混合的正则化来提高方法的稳定性。我们还表明,该方法可以在一般条件下一致地估计最优贝叶斯分类器,而不需要任何类先验或数据可分性的假设。实验证实了VPU的优越性能和鲁棒性。
值得注意的是,通过使用不同的统计距离,变分原理可以扩展到更一般的框架,其他一些可能的变分原理在《补充资料》的第三节中讨论。许多先进的技术被开发用于测量氮化镓分布之间的差异,有望提高VPU的性能。
更广泛的影响
VPU是一个通用的PU学习框架,它克服了以往方法的一些局限性,包括对类先验已知和数据可分性的要求,因此更适用于实际应用。因此,对VPU潜在影响的讨论实际上导致了对聚氨酯学习本身应用的潜在影响的讨论。有了VPU,需要更少的标签,这节省了成本,提高了效率。此外,VPU能够挖掘聚氨酯数据集中缺失的负面模式。如果发现负面模式是有益的,例如发现疾病的药物和识别推荐系统的欺骗性评论,这将是有帮助的。然而,恶意任务也可以与VPU一起进行,例如发现有害的化学物质。另一个不道德的情况是,有时出于隐私或其他伦理考虑,负面模式可能会被故意隐藏,但在VPU,人们可能会发现隐藏的信息。
Acknowledgments and Disclosure of Funding
作者感谢匿名神经科评论者的宝贵反馈。吴昊获得*大学基础研究基金(编号:22120200276)资助。王寅获得国家自然科学基金(61950410614)和*大学交叉学科项目(08002150042)的资助。
昊获得*大学基础研究基金(编号:22120200276)资助。王寅获得国家自然科学基金(61950410614)和*大学交叉学科项目(08002150042)的资助。