Science of Scientific Team Science: A survey
摘要:
科学团队合作是科学过程中的一个组成部分,往往导致重大发现。对科学团队合作的系统分析继续影响着科学和知识生产的进步。本文对科学团队科学(SSTS)进行了概述。SSTS从定量分析的角度探讨了科学团队特有的团队合作和基于团队的协作的行为和属性,是指分析和发现团队间或团队外科学协作模式的科学分支。本研究旨在协助科学团队组建、改善团队合作环境、评估团队绩效及培育团队合作行为,并对SSTS进行综述。讨论了不同团队发展阶段SSTS的理论背景。此外,三个分类的SST,包括跨学科,多学科和跨学科的研究方法进行了调查。他们相关的相似性和差异,挑战和好处,也进行了审查。本文还总结了基于网络的工具,以提高一个人的理解和意见的SSTS。然后讨论了关键技术和存在的问题。科学协作、科学团队合作、SST和跨学科研究之间的联系对希望在这些问题上进行雇佣和投资的学者产生了重要影响。
关键词:
科学团队科学、团队绩效评估、科学协作分析、科学团队合作
1介绍
科学协作和团队合作继续影响着研究实践和知识生产,在不同学科中越来越受欢迎[1]。科学家们对科学协作现象的研究由来已久[2]。协作在几乎所有学科中都变得越来越普遍。在90年代出版的物理学、化学、生物学和生物化学的主要期刊中,超过95%的文章包括多个合著者[3]。随着信息技术和通信技术的进步,科学家不再需要在同一地点,科学合作可以跨越大学[4]或国家边界[5]。此外,这一进步降低了沟通障碍,使科学家们能够作为一个团队,共同解决研究问题。对意大利一所大学的调查表明,国际合作对科研成果的生产率和平均质量产生了积极影响[6]。其他一些研究从不同角度用各种数据集证明了这一结论[7,8],而一些研究得出相反的结论,即国际合作主要发生在几个“核心”国家,这是由于合作网络的先进技术和设备[9–11]。金砖四国(巴西、俄罗斯、印度、中国和南非)的合作是稳定的,因为科学合作也与国家政策有关[12]。无论如何,科学协作正处于快速发展之中,这一现象引起了人们的关注。
与科学协作相比,科学团队处于更高层次的互动和整合[13]。随着国际学生流动和全球科学交流的增加,团队也越来越多地跨越不同国家的大学。因此,在许多领域,团队规模在45年的时间里从每篇论文1.9位作者稳步增长到3.5位作者[14,15]。
科学团队合作的成果通常以研究论文的形式呈现[15]。因此,学者们通过研究几乎所有科学分支的文章团队来研究科学团队[16]。研究表明,科学团队合作在生产和质量上都支配着科学家个人。科研模式的转变(从个体研究到团队合作)改变了科研人员研究科学行为的方式。传统的研究主要关注单个研究者的科学行为,如单个研究者的绩效评价。随着科学协作和团队合作的规模不断扩大,现有的算法和方法可能缺乏处理高阶复杂问题的能力。此外,数据驱动的分析和研究已经在许多研究领域引起了数据分析和决策的转变。此外,团队合作的科学家可能来自不同的学科、机构和民族,并面临与研究程序有关的挑战。尽管一些研究者已经对一些具体问题给予了更多的关注和努力,但是团队合作和协作相关问题的框架仍然是需要的。因此,更多的关注和努力应该集中在将当前工作的成果结合起来,形成一个既能指导团队贡献又能改善团队协作的综合科学体系。
在当前学术界对大数据的研究过程中[17],对当前的研究有一个清晰的认识是迫切需要直面数据爆炸式增长的问题。因此,在本文中,我们提出了科学团队科学(SSTS)的概念,它是一门科学分支,研究团队的行为和属性,以及特定于科学团队的基于团队的协作。以促进科学团队合作和基于团队的协作为目标,SSTS分析和发现了团队间或团队外的科学协作模式。此外,我们提供了一个新的科学方法和SSTS问题的系统概述。分别介绍了SSTS的理论和实践研究。本文的结构如下。第1节定义了术语SSTS并探讨了其基本概念。第二节从团队发展的不同阶段对SSTS进行了理论研究。第3节讨论了多学科、跨学科和跨学科方法中SSTS的实践研究。第四节阐述了SSTS在学术大数据挖掘中的关键技术和方法。第5节介绍了SSTS当前可用的和流行的支持工具,第6节概述了SSTS中存在的问题。最后,第7节结束了我们的工作。
1.1. SST的定义
有一些与sst相关的现有概念。在这一部分中,我们首先总结了现有的两个概念,然后介绍了SSTS。
Team Science*(TS**)*:被称为“一种协作的、通常是跨学科的科学研究方法,它将在较小规模项目中独立工作或作为共同研究者的研究人员吸引到协作中心和小组中”[13]。TS结合了不同学科的科学家,为科学做出了重大贡献。由于越来越多的复杂问题和大规模实验,需要这些科学家共同努力解决一个共同的科学问题。一篇有超过5000名合著者的物理学文章创造了世界上最大的合作团队的记录世界。与基于团队的研究越来越多,各种问题层出不穷。不同学科的科学家在不同的实验室工作,进行不同的实验,使用不同的方法和设备。由于科学成果不仅仅是工作成果不同部分的简单组合,如何研究科学协作一直是一个至关重要的问题。此外,还有许多问题,如如何建立一个有效的团队,团队组成如何影响团队绩效等。最近,许多科学家已经意识到,这些问题中的大多数可以通过挖掘学术大数据来解决,并做了有意义的工作[14–18]。[1]
Science of Team Science*(SciTS**)*:TS旨在促进合作以解决特定现象的问题,而SciTS是“科学研究的一个分支,特别关注理解和管理促进或阻碍团队科学计划有效性的环境”[19]。SciTS旨在指导科研团队建设和改善协作环境,目前越来越多的研究者开始关注它。研究者们提出了一种多层次、混合的方法来研究scit。宏观、中观、微观三个层面的问题也可以分为六个问句,即何时、何地、何事、何人、如何、为什么。更多的研究框架是基于综合分析相关因素的学科分类[20,21]。
Science of Scientific Team Science*(SSTS**)*:SSTS探索团队合作和基于团队的协作的行为和属性,特别是针对科学团队,是指分析和发现团队间或团队外科学协作模式的科学分支。随着研究规模的不断扩大和团队数量的不断增加,传统的以单个科学家的研究行为或单个科学产品为中心的研究已经不能满足迫切的研究需求。因此,SSTS将单个科学家或单个科学产品视为基础研究单元,团队视为先进研究单元。此外,科学家们已经改变了他们的研究方法,通过对大数据集的统计分析来发现模式。因此,SSTS侧重于定量和数据驱动的研究方法。本文的结构主要分为两部分,如图1所示。
**图1。**本文的结构。
2SSTS的理论研究
在组织行为学的研究中,团队合作的定性分析已经被研究了一段时间。20世纪60年代,Bruce Tuckman提出了五阶段团队发展模式(如图2所示),团队应该经历以下五个阶段:形成阶段、冲锋阶段、规范阶段、表演阶段和休会阶段。这也被认为是团队生命周期的五个阶段,每个阶段建立在前一个阶段的基础上。布鲁斯·塔克曼的团队发展模式被认为是团队发展模式的基本形式。尽管有些团队会跳过模型的一个或多个阶段,但事实证明,跳过阶段会对团队绩效产生负面影响[22]。
2.1. 形成阶段
这是团队生命周期的第一阶段。在这个阶段,团队成员通常不确定自己的角色,并寻求外部指导。对于团队生命周期,建议减少在此阶段花费的时间。对于科研团队来说,研究者需要解决的问题主要有三类:团队定义、团队构成和团队形成。下面详细阐述这些问题。
团队定义:科研队伍有几种,如图3所示。有些科学家可能身体不好
**图2。**布鲁斯·塔克曼团队发展模式的五个阶段 。
在同一地点或属于同一研究学科,但他们可能已经合作了一段时间,并可能认为自己是一个团队。随着研究团队规模和数量的不断增长,研究人员正在将研究兴趣转向学术大数据[23],并将传统的比较案例研究方法转向学术大数据挖掘。与其他类型的团队不同,科研团队通常是指由来自不同学科的研究人员组成的团队[13]。
然而,科研团队的定义是定性的,这使得科学家很难根据科研成果来区分是否属于科研团队。此外,科学团队中的共同任务和目标通常比其他类型的团队更不确定、更紧急、更动态[24]。一些研究者将一篇文章的合著者视为一个团队来探索团队科学的宏观问题[14,15]。一些研究人员把2到10个科学家团队视为一个科学团队,把10个以上的团队视为一个大团队[25]。也有一些学者给出了自己的定义,以便从文章中识别团队。Milojević提出了一个“核心+扩展”团队模型,并探讨了大型团队(10–1000)的规模随时间而变化,并且模式遵循幂律尾分布[18]。
以往的研究都是利用文章团队数据集来探讨团队的属性,得出了直接而有意义的结论。然而,文章团队是由许多可能属于不同团队的学者共同撰写的。显然,使用团队或实验室的数据集来研究团队合作模式更有效、更准确,而现有的团队数据集规模较小[26,27]。
团队组成:研究团队无论是自组织的、基金组织的,还是代理组织的,都是有目的的,这使得团队的组成尤为重要。同质团队包含具有相似属性的成员,如性别、种族、年龄、国籍、宗教、经验、教育、能力、态度、纪律、接近度等[28,29]。异质团队具有更多样化的属性,但同时也带来了更多的团队内部冲突。由于人口多样性带来了更多的资源,异质团队的协作表现通常更好[30]。通过对来自1415个实验和2128份出版物的594个2-11人团队的研究发现:学科多样性对团队生产力有正向影响;性别多样性对团队生产力没有明显的影响;资历多样性对团队生产力有负向影响 [24]. 工作空间和距离也会影响团队绩效。地理上的邻近性增强了凝聚力,并对团队绩效产生了积极影响[31,32],而有些是战略性的
**图3。**不同类型的科研团队 。
重要且高度复杂的工作由全球分布的团队完成[33]。随着科学的发展,学科往往会跨越传统的界限。除单学科外,多学科、跨学科和交叉学科之间还有一些细微的区别,将在第三节中进一步讨论。
组队:团队组建和团队组成之间仍存在一些差异。团队组成的问题主要集中在哪些因素以及这些因素如何影响团队绩效上。然而,团队形成问题的目标是通过将具有不同技能的个体集合为一个团队来完成任务。团队组建过程是一个NP难问题,它发现了一组能够以最小的沟通成本贡献自己的努力来完成特定任务的个人[34]。
团队组建问题已经研究了一段时间[35–40]。Lappas等人[34]首先考虑了个人社会网络中的团队形成问题,然后探索了两种实用且直观的沟通成本替代公式。最后,Lappas等人提出了相应的近似算法。然而,在[34]中的工作主要集中在问题的一个单一答案上,却忽略了用户在许多情况下可能需要多项选择的事实。因此,Kargar等人[41]提出了一种探索top-k答案的算法,并提出了一种近似算法,用于寻找有无领导者的top-k专家团队,使距离函数之和最小化。应用于NP-hard或NP-complete问题的方法可能是团队形成问题的强大应用。启发式方法[42]如遗传算法[35]和模拟退火算法[36]已经被用来解决这个问题。一些研究考虑了通信成本因素的更多方面,以丰富团队组建算法[39,43,44]。Wang等人[40]在一个名为统一组队系统(USTF)的通用平台上比较并实现了10种组队算法,然后在实际数据集中评估了它们的性能。这项工作的实验细节可以在他们的网站上找到。[2]
2.2. 暴雨阶段
冲锋阶段在整个团队生命周期中起着关键的作用。在这个阶段,团队成员依赖于团队内部的专业知识,而排除了外部权威和投入。成员们同时确定了权力和控制问题,如工作分配和决策问题。对于这些科研团队来说,领导评价和学分分配是SSTS中的两个主要问题,尽管存在其他常见的团队管理问题。
领导力评估:在科研团队中,领导者通常是指团队中具有较高科研水平和领导能力的人。目前对领导力的研究主要是定性的。然而,对于领导者推荐和团队贡献的定量研究是非常必要的。
在团队领导者的位置上,领导力被认为是团队最重要的属性之一,受到各种因素的影响。Eagley等人发现,女性领导者在领导能力方面有一些优势,因为女性经历了四个变化:领导角色、组织实践和文化[45]。Sivasubramaniam等人研究了领导力如何随着时间推移预测效能和绩效[46,47]。传统的领导力评价依赖于成员的投资,指出领导者管理能力的程度[48]。后来,学者[49,50]在发现领导是动态的之后,研究了领导动态模型。而在科研团队中,需要评估的量化指标更多。领导在科研队伍中总是拥有最高的学位水平,观点突出。许多基金对*的学位、年龄、资历、科研成果、留学经历等都有严格要求。
信贷分配学分分配的公平性是一项具有挑战性的工作,如作者年龄和论文发表时间等因素。目前的研究是基于累积优势来分配学分的,即拥有更多引文或荣誉的学者总是被分配到更多的学分。通常情况下,引用次数越多、影响力越大的资深科学家会获得更多的荣誉,这与马太效应(Matthew Effect)相对应[51]。
随着越来越多的团队间和团队外协作,有一个至关重要的需要开发一个学分系统,公平分配学分给合作作者。一些现有的方法甚至假设所有合著者对论文的贡献,这在实践中不太可能发现,因为在大多数科学项目中,一些作者的贡献明显高于其他作者[52,53]。虽然个人的角色和职责各不相同,但通常很难判断个人贡献的准确水平,也很难确定贡献最高的成员。一些方法考虑了作者贡献的不公平性,并根据作者顺序分配了科学学分[54–56]。Shen等人提出了一种算法,该算法考虑了引用论文作为论文合著者贡献的一部分来分配学分的重要性[57]。
2.3. 标准化阶段
科研队伍进入规范化阶段后,其结构趋于稳定。这一阶段的研究主要探讨如何用网络结构或空间结构来描述团队的常规运作。
网络结构复杂网络是描述人际关系最常用的结构。由于团队合作是一种高度内聚的科学协作,研究人员通过研究复杂网络的结构和动力学来探索团队的内部模式[32](见图4)。网络属性,例如网络中心性,也与团队生产力相关。在某些情况下,网络嵌入对团队成功有显著影响[58]。
节点或边可能出现或消失,以便动态网络拓扑随时间变化。它被广泛使用,因为它可以描述成分和相互作用[59]。另一个重要原因是社交网络本身是动态的。通过对动态网络结构的探索,大量的研究取得了重要的成果。研究发现,重复的积极互动可以促进个体之间和群体内部的合作。在静态网络中,节点从不崩溃,边缘保持工作状态。当大量的研究发现静态网络对协作没有积极的影响时,一些学者认为静态网络对协作没有积极的影响
**图4。**一个简单的异构网络结构的科学合作,包括合作作者和作者-论文的关系。
研究人员指出,以往的工作可能无法发现静态网络对协作的积极影响,并通过实验得出静态网络可以稳定人类协作的结论[60]。随着网络数据规模的不断扩大,网络的结构也越来越复杂。因此计算时间和复杂度同时增加。因此,Benson等人使用了基于子网的图形,并开发了高阶连通模式的通用框架[61]。
空间结构:科学家们通常使用协作网络来研究过去十年中科学协作的性质[62–66],而描述团队结构则更为复杂。背后的原因是基于团队的研究和科学合作之间的差异。团队是由有目的的机构(如实验室团队、项目团队、专利团队等)建立的,而正常的科学合作是自组织的,没有管理。此外,实际的合作通常以合作论文的形式进行评估,这可能导致团队科学网络的不同结构。能够捕捉成对关系的图通常用于建模协作网络,而这在团队科学网络中不起作用。在协作网络的基础上,提出了一个团队科学网络,其中每个团队成员由一个顶点表示,整个团队由一个加权单纯形表示,然后用度量方法定量评估团队间和团队外的属性[67]。本文的工作对于建立团队科学网络模型具有重要意义,并可应用于团队科学网络协作绩效的评价。此外,最近提出了一个双曲空间分析框架,以便有效地解决大量问题[68]。对团队科学网络结构的进一步研究可能会扩展到超空间(见图5)。
2.4. 表演舞台
在表演阶段,团队取得了令人满意的效果。一个成功的科研团队的定性定义是一个团队具有合理水平的凝聚力,以确保成员完成任务。基于项目团队,研究预测团队绩效与七个因素密切相关,这七个因素是理解平台、共同愿景、气候、弹性、想法拥有者、网络激活者和从经验中学习[69]。有一些共同特征有助于验证特定团队的有效性:有效的领导和管理技能、自我意识和其他意识、信任和沟通因素等[70]。领导力也是我们在风暴阶段部分讨论的一个重要因素。
团队绩效有时被称为团队效能。关于团队绩效的评估有各种各样的论文[71,72]。对于科研团队来说,所有的合作都会产生出版物、专利、实验、荣誉和其他形式的科学成果。然而,如何评价一个团队的成功和有效性是一个至关重要的问题。
**图5。**一个可以用来描述团队结构的空间结构的例子。每个节点代表一个学者,两个节点之间的边代表两个作者的合著。对于基于团队的协作,这种空间结构使用方面来识别。作者包括在同一颜色方案方面是在同一个团队。因此可以区分不同的团队。例如,facetcdef代表一个团队。C、M和F之间不存在协作,因此facetcmf是空的。
目前大多数研究都将生产率和产品质量作为评价指标[14,15,24]。现有的研究在科学产品评价和个体评价方面做了大量的工作[73–77]。上述工作考虑了评价的一些方面。对科研团队的评价应该有一种多方法的测量方法。到目前为止,几种流行的定量方法分为两类,即文献计量学或科学计量学分析和协作网络(如合著网络或引文网络)分析[78]。这种以引用和发表为基础的生产力测量方法对于科研团队来说是必要的,但并不多见。从定量和定性两方面挖掘科学影响的其他方面具有重要意义。例如,在应用学科中,更大产品的应用应该更广泛。此外,重要的是要根据产品确定团队工作的质量,尽管这可能很困难。最近,Mazumdar等人[79]提出了一个基于定量和定性评估的框架。为了评估团队中的科学家,他们概述了团队奖学金中科学家的贡献。然而,仍有许多工作要做。团队绩效也应该考虑成员的评价。因此,如果有两个团队提供相同水平的科学成果,那么花费较少努力和时间的团队获胜。如何平衡这些因素的影响,为每个因素赋予一个合适的权重值,仍然是有待解决的问题。此外,还需要建立一个相对全面的科学团队数据集和一个公平的基金推荐系统。
2.5. 休会阶段
布鲁斯·塔克曼认为,表演阶段后团队将重新构建,使团队从规范阶段开始[22]。
团队生命周期:学者们在布鲁斯·塔克曼之后发现,第五阶段可能从尾部阶段走到头部阶段,然后成为一个循环。当团队在休会阶段完全解散时,我们将时间点视为团队“死亡”的时间点。而团队生命周期是指从团队最初建立的时间点到团队解体的时间点。组织行为学研究者对团队生命周期进行了定性研究,通过问卷调查来判断和区分团队生命周期的不同阶段。在科学合作中,时间长度是评估两个或两个以上合作者是否工作良好的重要指标[80]。对于一个团队来说,时间长度在很多方面也是非常重要的。不同的团队生命周期会带来不同的产品和成就。它也是建立或分析科学团队的一个重要因素。项目团队通常是临时组建的,团队通常在达到最初目标后解散。大学实验团队的高离职率是每年毕业的学生经常观察到的现象,而实验团队的稳定性可以通过其成员离职时间的平均持续时间来判断。根据产品、论文、荣誉和其他科学成果的时间属性,可以对团队进行区分和分类。另外,团队寿命对SST很重要,在不同的学科中可能会有所不同。什么样的团队拥有最长的团队寿命?最矮的是什么?团队绩效与团队寿命相关吗?如果是的话,关系是什么?另外,团队寿命越长表现越好吗?团队生命周期包含学科差异和科学协作属性,这需要付出更多的努力。
团队成员推荐:这是SSTS中一个活跃的研究课题。最近,Li等人[81]的目标是在团队成员不可用时,在同一个组织中寻找最佳候补成员。在他们的工作中,团队成员替换问题被提出,并提出了一套有效且可扩展的算法。这项工作是有意义的,因为推荐算法可以在演员或球员的建议以及。此外,团队成员推荐的方法可以扩展到团队组成推荐和团队结构优化。
3.SSTS的实践研究
由于科学知识的进步,研究人员越来越清楚地意识到需要将不同的学科聚集在一起,以解决复杂和关键的研究问题,或者简化某些特定领域中基于知识的应用。意识到这一问题重要性的学者们在科学界引起了强烈的发展需求[82]。一项研究是跨学科的,当学者们专注于提供新颖的研究思路,整合不同领域/学科之间的观点和专业技能时[83]。
学者们[84]讨论了跨学科合作依赖于形成一个环境,通过满足促进用户联系和动机需求(即通过建立一个共同的理论模型来实现共同目标),使合作更容易。经济合作与发展组织(经合组织)讨论了在科学、社会、经济和技术领域需要采用跨学科研究的各种因素。
跨学科研究包括三种不同但复杂的方法:多学科、跨学科和跨学科。然而,分类和它们的确切定义可能不被普遍接受,并且已经观察到在某些情况下多-和相互-可以互换使用;在一些研究工作中,相互-和相互-也可以互换使用。由于跨学科研究之间确实存在着细微的差异,本文将对它们分别进行讨论。
3.1. 多学科研究方法
在多学科研究的情况下,合作者拿出他们自己的专长和独特的贡献来解决一个复杂的问题走向联合工作。在这种方法中,两个或两个以上的专家合作,对预期的产品做出贡献,从而产生结果,这种信息交流是有限的。此外,使多学科研究有效的主要因素之一是不同领域的合作者在交流信息时需要感到舒适的氛围[83]。这种方法也可能被认为是一种很好的研究方法,但合作的研究人员离开了既定的团队,却没有获得或了解其他学科。
然而,从引文的角度来看,[85]认为用分数计数法提供引文价值是可行的。分数统计规范了参与研究的学科之间不同风格的引用。因此,它提高了多学科研究团队的排名。此外,[86]还从引文的角度分析了多学科研究的适应效应。他们调查了他们在自然科学和社会科学领域的实验,这些学科是从Scopus和WoS数据库中提取的。根据他们的发现,多学科期刊的引文数量比单一学科的研究论文要少大约50%。
3.2. 跨学科研究方法
跨学科研究是指由两个或两个以上的学科组成一个团队来解决特定的研究挑战。研究者们就跨学科研究的整体概念和正确定义进行了大量的研究工作。我们认为,采用跨学科研究对于丰富研究者对特定问题的思考、创新理论或概念至关重要。与多学科研究不同的是,属于该团队的所有成员可能会分离出一些关于其他合作者学科的基本知识。因此,建立跨学科研究团队比建立多学科研究团队更可取[83]。
不同的作者对跨学科研究提出了不同的解释。其中,一些文献[87]将跨学科研究描述为“一组研究人员的合作努力,每个专家使用不同的方法和概念,他们参与了一个有组织的计划来解决一个具有挑战性的问题”。
有一些鼓舞人心的例子表明,不同的领域是如何结合在一起的,从而对各个技术领域产生重大影响。因此,多布森的一项研究成果于1998年获得诺贝尔奖。他的研究工作包括化学、物理、数学和计算领域的思想[88]。这项研究分享了运用跨学科研究的丰富经验。跨学科的研究方法有助于分析不同学科提供的数据,以从事共同的项目。此外,[89]证明了在跨学科研究和工业领域有着强烈的合作意愿。
已经进行了大量的调查,探索跨学科研究如何影响引用。Uzzi等人[90]分析了跨学科研究对文章引用影响的影响。因此,[90]发现,与单独的研究作品相比,适应跨学科研究是获得高引用文章的关键。他们的分析解释了跨学科研究如何影响引文的影响。同样,[91]也证明了跨学科研究对引文影响的作用是激励不同学科的研究者充分采用的。Yegros等人[92]将跨学科理论定义为三个多样性属性:多样性、平衡性和差异性。除此之外,[92]还调查了引文影响和跨学科研究之间联系的复杂性。根据他们的发现,跨学科研究的衡量和界定方式影响着跨学科研究对研究成果引用的影响。目前,跨学科研究方法已被推荐应用于细胞生物学、神经科学和医学等多个学科。
3.3. 跨学科研究方法
Rosenfield[93]将跨学科定义为来自不同学科的研究人员聚集在一起,使用一个共享的概念框架进行协作,该框架结合了特定学科的概念、方法和理论。此外,学者们对跨学科性给出了明确的定义,即“建立一个共同的概念框架,将相关学科联系起来,并作为产生与所定义问题直接相关的新研究问题的基础”。
此外,Aboelela等人[94]将其解释为来自两个或多个不同学科的研究人员的合作,旨在解决一个理论上比任何单独学科更广泛的问题。除此之外,Aboelela[94]提到跨学科研究使用了一种完全综合的方法,这种方法可能会因为新的研究领域或语言的出现而出现。
Grey等人[95]从护理学的角度解释了跨学科研究,认为“充分的研究伙伴关系、信誉分享,以及对护理对所考虑现象的独特贡献的认可,以及新定义和方法的发展”。Grey等人[95]声称,遵循真正的跨学科研究方法是相当具有挑战性和困难的,因为存在多种障碍,例如,获得工作经费。Másse等人[96]提出了评估跨学科整合和协作的工具,旨在推进SST的发展。在他们的工作中,他们发现采用跨学科的研究方法是一个关键问题,学者们应该在不同的场景中采用。
4关键技术
科研团队需要更强大的工具和高效的方法来处理,尤其是在团队数量和规模不断增加的情况下。传统的研究方法,如案例研究或问卷调查,在心理学领域可能会奏效,但正在从小规模的数据研究转向大数据研究。大数据处理一般分为数据采集、数据预处理、数据分析和数据挖掘四个阶段。科研数据通常可以在线获取,而且总是免费的,而且预处理比其他类型的大数据要少[97,98]。因此,本部分主要讨论了学术大数据处理与分析中的四种关键技术:统计方法、数据挖掘、网络科学和数据可视化。
4.1. 统计方法
在SSTS研究中,有多种统计方法可用于分析数据[99]。在本节中,我们将简要介绍大多数统计软件(如PASW)支持的几种经典和流行的方法。
假设检验:这是统计推断的基本形式。它也是一种统计方法,用来判断样本与样本、样本与总体之间的差异是否由样本误差引起。假设检验可以看作是一种与概率相矛盾的证明。它的基本原理是对人口的特征做出一些假设,然后通过抽样研究的统计推断来判断该假设是否成立。
相关分析:这种方法是研究几种现象之间是否存在相互依存的关系,并以某一特定现象的依赖方向来探讨其关系和关联。相关系数是两个变量之间线性关联的度量。相关系数的值在−1到+1的范围内。相关系数等于+1表示两个变量在正线性意义上完全相关。同样,相关系数等于−1表示两个变量在负线性意义上完全相关。此外,相关系数等于0表明这两个变量之间没有线性关系。
回归分析:此方法通过大量数据确定两个或多个变量之间相互依赖的定量关系。它也是一种利用因变量和自变量的回归方程来预测未来趋势的定量预测方法。它可以应用于大多数趋势预测问题。在进行相关分析时,一般只关注现象的贴近度,而忽略了自变量和因变量之间的差异。然而,它侧重于变量之间的详细关系。
因子分析:因子分析是指从变量组中提取公因子。通过这种统计技术可以找出具有代表性的因素。因子分析方法有很多种,如质心法、极大似然估计法、最小二乘法等,这些方法几乎都是基于矩阵对角线值不同的相关系数矩阵。
曲线估计:在处理大量数据的情况下,我们可以将数据拟合成线性或非线性曲线,揭示变量之间的内在关系。MATLAB和PASW支持线性、对数、逆、二次、三次、幂、复合、S曲线、logistic、增长、指数等函数。
聚类分析:聚类分析是指对相似对象进行分组的过程。聚类分析的目的是基于数据相似度对数据进行聚类。从统计方法来看,经典的聚类分析方法有系统聚类、分解聚类、动态聚类、重叠聚类、模糊聚类等。利用k-Means和k-Median算法的聚类分析工具已经被添加到许多统计分析软件包中,如PASW、SAS等。
4.2. 数据挖掘
数据挖掘发现隐藏在数据中的模式。现有的模型可分为两类:描述性模型和预测性模型。描述模式描述了当前数据中的事实和共同特征。预测模型是根据历史值和当前值来预测未来[100]。
大数据分析的核心技术是数据挖掘。为了利用学术大数据挖掘SSTS的内部模式,针对不同的数据类型和格式,提出了不同的算法。一些基本的数据挖掘技术已经应用于SSTS的研究中,如分类、估计和预测。我们讨论以下几种方法。
\1. **关联分组或关联规则:**几乎所有高效的关联规则算法都是基于Apriori算法的。Apriori算法是一种用于关联规则挖掘的频繁项集算法。该算法首先根据支持度找出所有的频繁项集(即频率),然后根据置信度系数生成关联规则(即强度)。关联规则挖掘分为两个步骤。第一步是通过迭代识别所有频繁项集,然后从频繁项中设置可信度不低于最低的规则。识别和挖掘所有频繁项集是关联规则挖掘算法的核心步骤。Apriori算法是Agrawal等人提出的解决关联规则问题的最著名、最早的算法之一,其优点之一是能够有效地生成关联规则。然而,当最小支持度较低时,该算法会产生大量的频繁项集候选。因此,许多改进的Apriori算法被提出。
\2. **分类或分类:**解决分类问题的方法有很多。决策树算法如贝叶斯、人工神经网络、K近邻、支持向量机、基于关联规则的分类、bagging和boosting等得到了广泛的应用。分类有多种算法。在决策树方面,ID3、C4.5决策树算法(C5.0)、CART、PUBLIC、SLIQ、SPRINT算法的应用较为广泛。神经网络有BP网络、RBF网络、Hopfield网络、Hamming网络等数百种模型,但目前的神经网络大多存在收敛速度慢、计算量大、训练时间长等缺点[101,102].
\3. **数据可视化:**数据可视化技术已经发展成为一种新的模式。可视化工具,包括科研数据可视化工具,应满足快速数据采集、数据筛选、数据分析和表示等需求。相当多的SSTS研究已经注意到科研数据需要很好的可视化。SSTS研究的数据可视化已经引起了人们的关注。学术家谱随着时间的推移而更新,并试图建立一个单一的,跨学科的学术谱系。[3] 许多SSTS研究者已经认识到数据可视化的重要性,并通过SNAP等网站展示了他们的研究成果。Plotly具有R、python、excel等流行数据处理软件的API编程接口。Tableau是基于web的,用户可以通过web浏览器可视化数据。图6由Tableau绘制,使用1970-2016年从Aminer数据集获得的数据。D3是数据驱动文档的缩写,是最流行的数据可视化工具之一,提供基于web的实时响应数据可视化。[5]
机器学习是数据挖掘中最流行的算法之一。根据不同的学习风格,机器学习算法可以进行不同的分类。一般来说,最流行的分类是有监督学习、半监督学习和无监督学习。logistic回归和bp神经网络等有监督学习算法可以应用于分类和回归问题。Apriori和K-Means等无监督学习算法在关联规则学习中的应用越来越广泛。半监督学习算法,如图推理和拉普拉斯支持向量机通常用于预测。Q学习和时差学习算法是两种广泛应用于动态系统和机器人控制中的强化学习算法。
如今,随着机器学习的兴起,深度学习越来越受到人们的欢迎。通过将底层特征组合成更抽象的高层特征,深度学习可以发现数据的分布式特征表示。作为机器学习的一种进化,深度学习的动机是建立和模拟人脑分析神经网络。
一般来说,数据挖掘有三大趋势:(1)高性能计算;(2)非结构化数据分析;(3)社会分析。随着数据规模的不断扩大和对数据挖掘速度的要求越来越高,需要开发高性能的计算算法。虽然目前结构化数据分析已成为主流,但毫无疑问,非结构化数据分析(如文本挖掘和自然语言处理)将变得越来越重要。社会分析是当今社会比较流行的一种分析方法,而在未来,社会分析将是一种关系圈分析。通过分析这些循环,研究人员可能会发现SSTS成功的关键。
5辅助工具
关于技术支持、科学合作、跨学科研究等方面的信息和资源的可用性和可靠性在最近的过去是罕见的。因此,获取能够提高人们对SST的理解和看法的资源是非常具有挑战性的。事实上,传播和分享科技成果的资源、知识、实用工具和战略的方法是不够的,因为科技成果对研究的增长是有用的关心。因此,打算克服这些限制,一些基于网络的支持工具已经开发出来,现在它们正在为全世界的研究人员服务。下面我们将讨论一些著名的SSTS工具。[6]
5.1. Team science toolkit
国家癌症研究所(NCI)的开发人员合作并构建了一个基于web的交互式工具,称为团队科学工具套件,旨在提供研究支持、开展和研究团队研究。此外,它还提供了工具,有助于提高研究人员的能力,不仅在自己的特定领域,而且在其他学科。在这个基于网络的工具中可以清楚地找到跨学科的概念。[7]
此外,如网站所述,该工具包包含用户生成的大量资源和信息,以支持SSTS的研究和实践。该工具包的主要目标是,整合不同学科的知识,减少个人为解决已解决的问题而不必要的重复工作,并提供有效的实践。因此,它安排了一个论坛,让专业人士分享工具和知识。团队科学工具包在提高SSTS的有效性和有效性方面发挥着重要作用。本质上,网站鼓励研究人员或用户通过上传有关SST实践和研究的工具和信息来分享他们的知识。因此,它打开了一个机会,为工具箱贡献新的资源,使其他研究人员或知识寻求者受益。
此外,它有助于加入博客上的专家讨论,并与跨学科的同事建立联系。工具包的这一特性增强了研究人员与知名和顶尖学者的联系,使他们能够相互协作,以便找到解决某些复杂研究问题的方法。事实上,这种基于网络的工具的一个主要目的是增加全球研究人员之间的科学合作数量,并激励他们(初级或高级研究人员)相互合作。
**图6。**计算机科学中作者数量及其平均发表论文数量的地理分布。该颜色表示每个国家每位作者的论文数。
5.2. Toolbox project
这个工具箱项目在网站上被精确地描述为“为跨学科、协作的科学提供了一个哲学上但实际上的增强”。这一增强主要以基于对话的“工具箱研讨会”的形式出现,旨在为跨学科和跨专业的合作者团队提供,也使跨学科的合作者能够就其研究假设进行结构化对话。此外,[103]还解释了工具箱项目,因为它“是建立在这样一个前提之上的,即哲学可以通过对不同学科的研究过程背景和方法的假设的更好的相互理解来加强跨学科交流”。[8]
因此,[104]从团队和领导的角度讨论了工具箱项目。Eigenbrode[104]指出,工具箱项目作为一种辅助工具,促进了科学团队之间的协作讨论,并得到了相应领导的支持。根据工具箱项目的主要职责,用户将有机会不费吹灰之力地接近其他合作者。
5.3. Teamscience.net
团队科学.netis美国国立卫生研究院(NIH)在西北大学资助下提供的一种基于网络的工具,旨在促进TS学习和技能的快速发展。该工具使TS的领导者能够获得适合资助、组建、领导和评估科学团队的信息。[9]
在这个基于网络的工具下,有一个名为“COALESCE-CTSA-Online Assistance-for-leverage the Science of Collaborative Effort”的项目。该项目的主要目标是建立、评估和共享最新的、易于阅读的在线资源。因此,全世界的用户使用该工具可以提高他们对SST以及跨学科研究方法的认识和理解。此外,该工具提高了研究人员参与基于团队和跨学科研究的需要。
团队科学.net包含四个关键模块,使用它们一个人可以学习和利用TS团队科学.net该工具对专家进行了访谈,并对SSTS进行了实证研究,以丰富模块中的资源和信息。
任何状态的研究人员和个人都可以从这个工具中受益,因为它的设计使研究人员能够在如何提供有效产品以及如何解决合作者之间的沟通障碍的背景下发现SSTS的技术。
5.4. Research toolkit
研究工具Kit是一个基于web的开放访问工具,它提供资源,旨在简化涉及不同学科合作者的研究工作。它是专门为与实践和社区合作的健康研究而设计的[105]。美国国立卫生研究院华盛顿大学转化健康科学研究所临床与转化科学奖连续两次行政补充资助的研究工具包项目的开发[10]
资源“”。
如网站所述,工具包团队包括来自两个不同网络的研究人员,旨在组织跨学科研究,并努力将研究结果快速转移到临床和社区实践中。这一工具为卫生科学领域出现的问题提供了切实可行的解决方案,发挥了重要作用。例如,来自计算机科学和健康科学的学者合作解决一个特定的问题,讨论这个问题,并提供一个节省时间和预防健康科学专业人员问题的解决方案。网站上提供的工具包的主要特点是开展协作、编写提案(例如为项目筹集资金)、项目管理、分发和完成项目。
5.5. VIVO
VIVOis是一个由NIH国家中心资助的关于地理上分散的团队的弱点和优势的交互式软件。正如网站上明确定义的,“维梧支持记录、编辑、搜索、浏览和可视化学术活动”。此外,维梧是一个高度协作的工作文化,旨在创造一个传播奖学金信息的新机会,并提高用户对该信息的了解。维梧使团队合作更容易从团队领导者的角度来看,其中一个团队的成员准备个人以及项目明智的报告,并提交给团队领导者。这种文化有助于开发富有成效和成功的基于合作的项目,包括满意的团队成员。[11]
VIVO有三个关键点,比如连接、共享和发现。连接:连接来自不同资源的数据的方式有助于获得有关组织中发生的重要研究项目的足够知识。分享:维梧为学术大数据作品的表现提供了机制,例如,它分享了学术数据的词汇表。此外,VIVO的数据共享确保了数据元素的定义可供用户使用,同时在线呈现文件,以便用户理解数据的含义。Discover旨在为研究人员提供开发工具的选择。
团队科学和跨学科协作已成为当今研究的主要趋势。因此,为了采用这一热门研究概念,许多组织将维梧视为开发一种增强技术支持和协作的工具的一种选择。因此,各组织正在利用维梧,利用维梧开放标准建立有关其奖学金的链接数据。这表明该工具正在得到用户的积极响应。VIVO可以被学术导师、信息专家、管理人员、研究人员等使用。
6未决问题
SSTS是一门跨学科的学科,越来越受到人们的关注。尽管SSTS提供了好处,研究人员可能会面临与语言和交流问题、不同机构和学科的结构和程序相关的潜在挑战。此外,跨学科的不同观点也可能是困难的。因此,应更加重视和努力将当前工作的成果结合起来,形成一个既能指导团队贡献又能提高团队合作的综合科学体系。从地方的角度,我们进一步讨论了以下几个问题。
数据集:科研团队急需合适的数据集。此外,为了改善所有领域的数据共享,鼓励开放科学。免费获取所有成果、数据和出版物有助于加速科学的发现[106]。数据收集和共享现已成为两个关键问题。在这个信息密集、数据支持的世界中,可视化是至关重要的。数据可视化以多个维度显示数据,并揭示现象中的模式或关系。然而,两种传统的维度可视化方法在团队数据的可视化方面都存在不足。此外,伟大的可视化需要工具和研究人员的培训[107]。因此,统计、时间、地理空间、专题和网络数据的可视化对于科学家、经济学家和决策者的决策具有重要意义。
技术:鼓励提出新的方法,包括但不限于数据收集、绩效评估、政策决策、结果可视化、科学推荐、学生培训等。随着网络结构复杂性的增加,研究方法和算法的有效性有待提高。迫切需要更高性能的计算算法。GPU编程技术可以加快算法的运行时间,因为GPU最适合用于模块化和并行化的任务。
辅助工具:现有的支持工具提供集成的基于团队和跨学科的权限。尽管如此,支持更高层次的集成协作研究仍然需要支持工具。为了支持协作研究,这些工具不仅需要是一个数据存储库,还需要是一个科学的社会网络,使所有团队活动都透明。哮喘e-Lab[108]是一个很好的案例,它将数据、方法和研究人员结合在一起。
从总体上看,大学层面,甚至国家层面的政策需要改变,以形成开放的跨学科研究环境。需要提出一个TS框架作为团队指导[16]。因为团队是由个体成员组成的,所以管理科学和心理学非常重要。需要区分的因素如领导力、沟通、组成、基础以及对团队绩效有显著影响的所有因素[109 ]。由于传统网络已经扩展到大网络,学术网络的复杂性也在不断增加。因此,对网络的研究需要从以单节点为基本研究单元转向以图形为基础,从研究学者型网络结构转向研究团队型网络结构,从传统的一层网络转向两层以上的网络结构,从网络结构转向空间结构。此外,数据驱动的分析和研究已经导致了SST的转变。此外,机构和研究人员都需要认识到将具有不同技能和专长的研究人员聚集在一起的重要性[110]。
7结论
近年来,团队合作解决复杂的科学和社会问题越来越受欢迎。特别是,许多复杂的问题需要跨学科的技能。与此同时,随着信息技术和网络技术的迅速发展,促进了有效的交流,跨学科的研究合作在国家和国际两个层面都在增长。本文调查了科学研究中的跨学科协作,并检验了SST,以更好地理解这些因素,并提出进行有效团队研究的最佳实践。基于Bruce-Tuckman的团队开发模型,讨论了SSTS的主要研究问题,介绍了SSTS研究中应用的关键技术。我们还回顾了重要的支持工具并讨论了开放性问题。这表明,复杂的科学问题需要来自不同学科、具有不同技能和经验的许多研究人员的合作。通过对SST的考察,研究人员可以了解如何进行有效的团队合作进行科学研究。