KPT模型是文本的初期工作,它也是作者参与的在2017年发表在CIKM上的一篇文章,本文是对这篇文章进行了完善与扩展。接下来我会首先介绍这篇文章的主要工作,然后在这篇文章的基础上介绍本文的完善和扩展。
下面介绍背景,在线学习技术的快速发展为学生提供了广泛的自学资源并且为以数据驱动的教育管理研究带来了新的机遇。例如MOOC,OJ,这些在线学习平台给学生提供了丰富的学习资源使他们能够在一个开放的环境中自主学习和练习知识。虽然它们的自主性和便利性这些优点吸引了大量的学生,但研究者发现在实践中学生容易丢失学习兴趣并且有巨大的辍学率问题。解决这个问题的一个有效方法是:在 在线学习系统中提供个性化的服务,提高学生的学习体验。随着当今丰富的学生学习数据的积累,研究人员已经在这个教育问题上尝试了许多面向数据的解决方案,其中一个关键任务是知识水平诊断。针对这一问题,教育心理学和数据挖掘领域都进行了很多研究,在教育心理学中,认知诊断模型通常使用一个潜在特征值或一个二元技能掌握向量表征每个学生的知识熟练度。相比之下,通过将诊断任务视为一个分数预测的数据挖掘问题,矩阵分解技术可将学生投射到一个潜在空间中,推断他们的隐性知识状态。但这两种类型的研究存在一个问题:它们都是直接地利用学生练习记录进行诊断,大多数忽略了学生学习过程中的一些重要因素。通过阅读文献,作者发现有两个主要因素对学生的学习过程产生比较大的影响。一个是学生的学习过程是随时间而演变的,另一个是学生通常在具有相同知识概念的练习上获得一致的分数。接下来介绍一下这两个因素。
第一个因素是学生的学习过程是随时间演变的。它的主要背景是:教育心理学家长期以来一直认为学生的学习过程不是一成不变的,而是随着时间的推移而演变的,学生不可避免的会获得和忘记所学知识。针对这个特点,教育研究中的两个重要理论(学习曲线理论,遗忘曲线理论)为建模学生的知识水平提供了基本思想。学习曲线理论认为学生通过不断的学习和练习获取知识,遗忘曲线理论认为学生对所学知识的记忆力随时间下降。如图所示,随时间推移,学生U2通过做一些练习提高了他在两个知识概念上的熟练度,相反,学生U1因为在4月5月没有做任何练习,所以他的知识熟练度在下降。
基于学习曲线理论和遗忘曲线理论,数据挖掘社区和认知诊断领域的一些研究尝试动态的追踪学生的知识水平。实验结果表明,为这个任务加入时间信息是具有优势的。但是,有一些问题还在探索中,尤其是,数据挖掘模型,例如张量分解模型,仅随时间变化捕捉学生的潜在因素。所以这些模型很难解释特定知识概念和学生熟练度之间的一个因果关系。此外,在认知诊断中,许多知识追踪方法将学习和遗忘因素视为附加参数,相关结果表明这两个因素与学生每次做的练习是高度相关的。但是这些认知模型不能解释这些教育理论是怎样帮助解释学生在概念上的熟练水平随时间的变化。因此,本文工作的目的是应用学习和遗忘理论来更好的追踪和解释学生在学习过程中的知识水平。
另一个因素是,在现实世界中,学生通常会在具有相同知识概念的练习上获得一致的分数。如图所示,在3月时,学生U1在练习e1,e4上都做对了,学生U2都答错了,通过右边的Q矩阵可以看到练习e1,e4都包含知识点k1,“函数”,所以,可以得出结论,在3月时,对于知识点K1(函数),学生U1比学生U2掌握得好。
文献中的许多研究表明基于项目的协同算法已成功提高了相关领域的性能,但是尽管一些先前的工作已经考虑了一些技能关系,例如这篇文章考虑了“必备技能层次”,但很少有人注意到直接利用具有相同概念的练习之间的连接性来诊断和解释学生知识水平的效果。
为了解决这些问题,在本文的前期工作中,也就是之前提到的这篇论文中,通过结合学习和遗忘理论提出了一个解释性的概率矩阵分解模型(KPT)来追踪学生的知识水平,具体地说,首先将每个练习与一个知识向量相关联,其中每个元素表示一个特定的概念。由专家标注的Q矩阵描述了练习与知识点之间的关系,它被用作先验生成试题表征。在同一知识空间中,每个学生在每个时间都被表示为一个熟练度向量。然后,作者联合应用学习曲线和遗忘曲线理论捕捉每个学生的知识状态随时间的变化,实验结果表明,KPT模型可以很好地在学生学习过程中追踪和解释他们的知识水平。
在本文中为了进一步提高KPT模型的预测性能,作者通过将试题之间关于知识概念的连接性引入到概率建模中,进一步开发了KPT的改进版本EKPT,在EKPT模型中,作者假设学生在具有相同知识概念的练习上表现一致,具体地说,在每一次练习中,为每个练习在其概念上选择一个邻居集合。EKPT可以学习在其邻居的影响下每一个知识向量,相应的,每个学生的熟练度向量也通过他在这些邻居练习上的表现来更新。最后,为了验证KPT与EKPT模型的有效性,作者引入了3个实际的诊断任务。并在4个真实世界的数据集上进行大量实验,实验结果表明提出模型具有良好的准确性和可解释性。这些工作在后面会具体地进行介绍。
然后需要说明的一点是:本文的工作与教育心理学中的一个重要主题相关,叫做自我调节学习,近年来,在线学习系统的激增吸引了许多学生进行自我调节学习。但是,研究结果表明,由于缺乏老师的指导,许多学生在学习过程中遇到了困难,所以导致了很大的辍学率问题。所以,现在许多学者更加关注如何改善在线环境中的自我调节学习策略的问题。其中,一个重要的策略是自我评估,它是让系统监控学生的学习过程,并告诉学生,他们所拥有的技能和他们所需要的技能。本文的跟踪学生知识水平的工作,从技术角度来看,与自我调节学习在自我评估策略方面有着非常紧密的联系。本文的目标是提出一个可解释的模型,提醒学生他们需要的知识和他们不需要的知识。作者认为他们的解决方案可以在某种程度上帮助在线学生在实践中进行自我调节学习。
作者将相关的模型技术概括为4类,学生建模,认知诊断,动态学习建模,练习关系建模。
第一类 数据挖掘领域的学生建模,它的目的是从他们的练习中学习学生的潜在表征。通常有两类代表性的技术:分解模型和神经网络。例如在第一篇论文中、作者在2010年时,利用矩阵分解模型将每个学生映射到一个潜在向量中,描述学生的隐性知识状态。为了捕捉学生学习过程的动态,作者在2011年又通过随时间推移合并其他时间维度提出了一个张量分解方法。
除了利用分解模型,近年来,通过在知识点与神经元之间建立bridge,研究者开发了许多用于诊断任务的深度神经网络。在第一篇论文中、作者提出了一个深度知识追踪模型,DKT,它是首次利用递归神经网络来追踪学生的知识状态,此外在2019年和2018年,这两篇文章分别引入了练习内容与学生群体的影响来提高性能。
这些工作的一个共同局限性是这些模型的运作方式像一个黑盒,无论是分解模型的潜向量还是神经网络的隐藏层都不能对应任何显式的知识概念。在这里呢,本文中提出的模型通过结合教育因素改进了传统的概率模型,可以显示出学生的优势和弱点,保证了模型的解释力
第二类是教育心理学的一个重要方向—认知诊断,它的目的是发现学生在已定义的知识概念上的熟练度。现在广泛使用的认知诊断方法可以分为两个方面:单维模型和多维模型。其中,2013年的论文里提出的项目反应理论IRT就是典型的单维模型,它将每个学生视为一个熟练度变量(潜在特征)。相比之下,2009这篇论文中提出的多维模型DINA模型,用一个二元潜在向量表示每个学生,这个潜在向量借助Q矩阵描述学生是否掌握了知识概念。此外,第2018年的这篇论文中,作者利用模糊系统的优势提出FuzzyCDF,来定量的诊断学生的知识水平。但是所有这些方法都依赖于静态假设并且忽视了时间因素以获得更精确的诊断。在本文中,着重捕捉学生在学习过程中知识熟练度的变化
第三类动态学习过程建模,为了解释学习过程中学生知识水平的动态变化,教育心理学家融合了学习理论、遗忘理论两个经典理论。基于这两个理论,研究者尝试开发了一系列模型用于从发展的角度对学生的知识状态进行诊断。例如,提出了一些基于IRT的模型,例如:第一篇论文中的学习因素分析,和第二篇论文中的表现因素分析。这些模型假设学生在练习时共享相同的学习率参数。此外,在2013年的这篇论文中提出了一个时间序列IRT模型来估计每个学生的动态潜在特征。另一个代表性的工作是知识追踪,其中贝叶斯知识追踪(BKT)是最流行的模型,它假设每个学生的知识状态是一组二进制变量,其中每个变量表示他对某个概念已经掌握了或者没掌握。在此基础上,一些扩展进一步考虑了其他因素的影响,例如2018年的这篇文章考虑了个体差异的影响(第一篇论文),2017年的这篇文章考虑了先决条件层次结构的影响(第二篇论文)。
这些工作在实践中存在一些限制。首先,基于IRT的模型只为每个学生估计一个特定的变量,无法同时发现学生在多个知识概念上的熟练水平。其次,在知识追踪通常适用的学习场景中,允许学生不断做相同的练习来学习目标概念,但这对于更通用的场景来说是不够有效的,因为在更通用的场景中,学生很少重复做相同的练习,而是做更多不同的练习来进行概念学习。最后,现有模型忽略了学生练习时学习和遗忘因素的直接变化影响,因此难以量化学生知识水平随时间的动态变化。
第四类建模练习关系是教育心理学中的一个关键问题。一方面,研究者经常利用Q矩阵关联练习与知识概念。利用给定的Q矩阵,研究者做出了许多工作来生成教育分析,例如:第一篇论文介绍的知识诊断(论文),第二篇论文中介绍的滑动和猜测检测(论文),和这篇论文中的学习团队形成(论文)。另一方面,研究者致力于利用练习关系来预测学生成绩,这有助于分析学生的知识状态。它的最初思想是学生通常在具有相同知识概念的练习上获得一致的分数,这个想法与推荐系统和信息检索中使用的方法相似,例如基于项目的方法(论文),和基于模型的方法(论文),在这些方法中用户通常对具有相似属性的商品表现出相似的消费偏好。
即使一些先前的工作探讨了概念的先决关系的影响,但它需要大量的专家注释,劳动强度大,而且,结合练习的连接性来更准确的诊断学生的熟练度水平还没有得到充分的研究。本文着重于在知识概念上捕捉练习之间的连接性,并将其纳入到建模中,提高诊断结果的准确性和可解释性。
接下来是问题陈述:假设在一个学习系统中有N个学生,M个练习,K个知识点,其中学生在不同的时间做练习,记录的练习日志如左表所示,具体地说,将练习日志表示为分数张量R,如果学生i在时刻t做了练习j,Rijt表示学生i在练习j上的分数,然后还给定了由教育专家标记的Q矩阵,表示练习与知识概念之间的关系。需要注意的一点就是,在本文的场景中,大多数学生在不同的时间只练习一次相同的练习,因为在通常情况下,他们通常会选择不同的练习来学习某一个特定的概念。比如说,如果学生想学习“函数“这个概念,他会首先会做一个跟”函数”相关的练习,然后检查一下有没有做对,如果他发现答案错了,他就不会再做相同的练习了,因为这个时候他已经知道答案了。所以,很自然的他会练习另一个其他的,但是也具有函数这个知识概念的试题。因此,如表所示,学生U1通过在不同的时间t1,t2,做不同的练习e1,e5,来学习概念k1,从Q矩阵可以看到练习e1和e5都包含知识点k1。
给定分数张量R和相应的Q矩阵,本文的目标有两个:1、追踪每个学生知识熟练度的变化并诊断从时刻1到T时刻学生对K个知识概念的掌握程度。2、预测T+1时刻,学生在K个概念上的知识水平以及在特定练习上的表现分数。表2是本文中使用的一些符号总结。
这是图本文的一个解决方案概述,从图中可以看到,这个解决方案是一个2个阶段的框架,包括建模阶段,预测(应用)阶段。在建模阶段,给定学生练习日志和相应的Q矩阵,作者首先提出了一个初期的KPT模型,KPT模型首先借助Q矩阵先验将每个学生的熟练度向量投射到知识空间中,然后结合学习曲线理论,遗忘曲线理论随时间变化追踪学生知识水平。此外,为了提高预测性能,引入练习间的连接性提出了改进的EKPT模型。之后,得到了不同时间的学生熟练度向量U,和练习知识向量V。在预测阶段,作者将KPT,EKPT模型应用于3个教育任务,未来学生的知识熟练度估计(预测UT+1),预测学生未来的分数(预测RT+1),和诊断结果可视化。
这个是KPT模型的一个总体框架,这个图片是CIKM17年论文中的图片,它其实就是之前的“解决方案概述“的这个图中将KPT模型的部分摘取出来的图。(自己解释一下)
下面具体介绍KPT模型,包含两个主要部分,分别是:利用Q矩阵先验建模练习知识向量V,和利用学习和遗忘理论建模学生熟练度向量U。在论文中写的是作者受(两篇论文)已有工作的启发,给定学生练习日志,对每个学生i和每个练习j,用学生熟练度向量U和练习知识向量V将观察到的应答分数张量R的条件分布建模为(公式)N (μ, σ2),均值是μ, 方差是σ2的高斯分布,Uti 是t时刻,学生i在K个知识概念上的熟练度向量。Vj是练习矩阵V中练习j的知识向量,表示练习j与K个概念之间的潜在关联。<·, ·>表示两个向量的内积,bj是练习j的难度偏差。I是指示张量,如果学生i在时刻t做了练习j,则Iijt=1。接下来,首先说明怎样嵌入Q矩阵先验来建模练习矩阵V,赋予每个练习知识向量可解释性,然后通过在动态学习过程中结合学习曲线、遗忘曲线追踪学生的熟练度张量U。
传统的概率矩阵分解模型存在解释力低的问题,因为学习到的潜在向量是无法解释的。这样就不能提醒学生他们的不足,对于这个问题,教育心理学做了许多工作,如09年的这篇文章,通过利用Q矩阵建立一个可解释的模型。如果Qjq=1,在Vj的第q维嵌入概念q。但是,传统的Q矩阵在实践中有两个缺点,一、人工标注不可避免的错误或主观偏见。二、二元条目的稀疏性,不太适合概率建模。为了减轻这些问题,作者通过利用基于偏序的方法改进了Q矩阵。
对于练习j,可以将它在所有概念上的偏序定义为这个样子。如果在Q矩阵中一个知识概念q被标记为1,那么就假设这个概念q比其他所有被标记为0的概念更与练习j相关。但是不能推断出具有相同标记的知识概念的可比性。使用这个偏序》,我们可以将初始Q矩阵转换成一个可比较的三元组DQ。DQ没有Q矩阵稀疏了,并且能够更准确的捕捉练习j的两个知识概念(q,p)之间的成对关系。然后,通过引入这个偏序集DQ,学习潜在练习矩阵V。
延续前面的思想,在所有练习向量V的所有知识概念对(q,p)上找到正确的偏序贝叶斯过程转向使DQ上的后验概率最大化,也就是公式(1)。然后作者在这里做出两个假设:假定所有练习均由教育专家在Q矩阵中独立标记,并且假定练习J的每对知识概念(