Bootstrapping Entity Alignment with Knowledge Graph Embedding理解

Zequn Sun et al. IJCAI 2018.

相关知识介绍

实体对齐(entity alignment)也被称为实体匹配(entity matching),主要用于消除异构数据中实体冲突、指向不明等不一致性问题,可以从顶层创建一个大规模的统一知识库,从而帮助机器理解多源异质的数据,形成高质量的知识。

Bootstrap是一种统计学上的估计方法,由Stanford统计学的教授Bradley Efron提出。Bootstrap是一类非参数Monte Carlo方法,其实质是对观测信息进行再抽样,进而对总体的分布特性进行统计推断。

个人想法:Bootstrap只是通过多次重抽样对已有样本进行了最大程度的利用,并没有额外增加样本。因为样本有限,抽样次数在足够多的情况下,Bootstrap可以最大程度地估计出当前样本的统计特性。

论文背景

知识图谱(Knowledge Graph,KG)在AI的众多领域中广泛应用,如问答(question answering)、语义搜索(semantic searching)和知识推理(knowledge reasoning)等。知识图谱中知识一般以三元组(h,r,t)的形式表示,其中h表示头实体(head entity),r表示关系(relation),t表示尾实体(tail entity)。为更好地捕捉知识图谱中的隐藏语义,将知识图谱中的元素(如实体、关系等)用低维的向量(embedding)表示。

单一的知识图谱很难满足多元知识的需要,一种有效的方式是通过实体对齐(entity alignment)将多种知识图谱的异构知识集成起来。但有限的训练数据会使得embedding不准确,实体对齐的精确度不高。因此本文提出了一个基于Bootstrap的实体对齐技术。

问题定义

实体对齐的目标是找到集合A=(x,y)X×YXRYA = {(x,y)\in X\times Y|X\sim_RY}A=(x,y)∈X×Y∣X∼R​Y,其中XXX表示KG1KG_1KG1​的实体集,YYY表示KG2KG_2KG2​的实体集, R\sim_R∼R​是等价关系。XX^{'}X′和YY^{'}Y′是已有的训练集。

本文将实体对齐转换成分类问题,即用YYY的实体给XXX的实体打标签,对应概率定义为π(yx;θ)=σ(sim(v(x),v(y))),\pi(y|x;\theta) = \sigma(sim(\vec{v}(x), \vec{v}(y))),π(y∣x;θ)=σ(sim(v(x),v(y))),其中,σ()\sigma(\cdot)σ(⋅)是sigmoid函数,sim()sim(\cdot)sim(⋅)是余弦相似度度量,θ\thetaθ是KG1KG_1KG1​和KG2KG_2KG2​的embedding参数。最终,本文的最大似然优化目标为θ^=argmaxθxXlogπ(Lxx;θ)=argmaxθxXyY1[y=Lx]logπ(yx;θ),\hat{\theta} = {\arg \max}_{\theta}\sum_{x\in X}\log \pi(L_x|x;\theta) = {\arg \max}_{\theta}\sum_{x\in X}\sum_{y\in Y} \mathbf{1}_{[y=L_x]}\log \pi(y|x;\theta),θ^=argmaxθ​x∈X∑​logπ(Lx​∣x;θ)=argmaxθ​x∈X∑​y∈Y∑​1[y=Lx​]​logπ(y∣x;θ),其中LxL_xLx​表示实体xxx的真实标签,1[]\mathbf{1}_{[\cdot]}1[⋅]​是示性函数。

主要方法

首先,考虑到正负样本的训练问题,使用了限制损失的embedding目标函数:Oe=τT+[f(τ)γ1]++μ1τT[γ2f(τ)]+.O_e = \sum_{\tau \in T^+}[f(\tau) - \gamma_1]_+ + \mu_1\sum_{\tau^{'} \in T^-}[\gamma_2 - f(\tau^{'})]_+.Oe​=τ∈T+∑​[f(τ)−γ1​]+​+μ1​τ′∈T−∑​[γ2​−f(τ′)]+​.其中f()f(\cdot)f(⋅)是score function,度量三元组的合理性(plausibility),[]+=max(,0)[\cdot]_{+} =max(\cdot,0)[⋅]+​=max(⋅,0),γ1.γ2>0\gamma_1.\gamma_2>0γ1​.γ2​>0和μ1\mu_1μ1​是超参数,T+T^+T+是正样本,TT^{-}T−是负样本。并且,使用ϵ\epsilonϵ去除负样本生成,即从当前样本的最近s=(1ϵ)Ns=\lceil(1-\epsilon)N\rceils=⌈(1−ϵ)N⌉个样本中挑选负样本,使负样本更难从正样本中分别出。其中ϵ[0,1]\epsilon \in[0,1]ϵ∈[0,1]是比例,NNN是知识图谱中样本的总数目,\lceil\cdot\rceil⌈⋅⌉是向上取整函数(ceiling function)。

其次,考虑到样本不足的问题,并考虑到实体和标签间的一一对应,在第ttt轮迭代标签对应使用如下的损失函数maxxXyYxπ(yx;θ(t)ψ(t)(x,y)),s.t.xXψ(t)(x,y))1,yYxψ(t)(x,y))1,x,y.\max \sum_{x\in X^{'}}\sum_{y \in {Y^{'}x}}\pi(y|x;\theta^{(t)}\cdot\psi^{(t)}(x,y)), \quad s.t. \sum_{x\in X^{'}}\psi^{(t)}(x^{'},y))\leq1,\sum_{y \in {Y^{'}x}}\psi^{(t)}(x,y^{'}))\leq1, \forall x,y.maxx∈X′∑​y∈Y′x∑​π(y∣x;θ(t)⋅ψ(t)(x,y)),s.t.x∈X′∑​ψ(t)(x′,y))≤1,y∈Y′x∑​ψ(t)(x,y′))≤1,∀x,y.其中Yx=yyY and π(yx;θ(t))>γ3Y^{'}x={y|y\in Y^{'} \text{ and } \pi(y|x;\theta^{(t)}) > \gamma_3}Y′x=y∣y∈Y′ and π(y∣x;θ(t))>γ3​是xxx的候选标签,ψ(t)(x,y)\psi^{(t)}(x,y)ψ(t)(x,y)是需求解的预测函数。ψ(t)(x,y)=1\psi^{(t)}(x,y)=1ψ(t)(x,y)=1当前仅当在ttt轮时,yyy是xxx的标签,其它时候取0。并且,综合考虑标签样本和未标签样本,得到新的对齐目标函数为Oa=xXyYϕx(y)logπ(yx;θ).O_a = -\sum_{x\in X}\sum_{y \in Y}\phi_x(y)\log\pi(y|x;\theta).Oa​=−x∈X∑​y∈Y∑​ϕx​(y)logπ(y∣x;θ).其中当xxx有标签时,ϕ(x)=1[y=Lx]\phi(x)=\mathbf{1}_{[y=L_x]}ϕ(x)=1[y=Lx​]​;当xxx无标签时,ϕ(x)=1Y\phi(x) = \frac{1}{|Y^{'}|}ϕ(x)=∣Y′∣1​。

最后,不仅需要捕获对齐似然,而且需要对知识图谱的语义建模,得到下面的综合目标函数:O=Oe+μ2Oa,O = O_e + \mu_2 \cdot O_a,O=Oe​+μ2​⋅Oa​,其中μ2\mu_2μ2​是一个平衡的超参数。

上一篇:Working overtime is not the solution!


下一篇:【论文】Knowledge Transfer for Out-of-Knowledge-Base Entities: A Graph Neural Network Approach