《大数据、小数据、无数据:网络世界的数据学术》一 1.3 无数据

1.3 无数据

学者、学生、*、企业和公众通常认为几乎所有主题的数据都存在且可用。其实,数据缺失现象普遍存在。在不同领域中,解决研究问题所需的数据量、数据产生速度和数据多样性具有很大差异。数据资源丰富的研究领域往往会构建数据资源池,以促进方法、工具和基础设施共享。数据资源池拥有比任何个人或团队都更多的数据,其可用于挖掘、组合,也能吸引更多目光聚焦于数据。在数据贫瘠领域,数据则是“珍贵财产”(Sawyer 2008,361),其能促进方法和理论的选择。长尾隐喻中,数据丰富和贫瘠领域的二分法过度简化了所有研究过程的数据资源复杂度。以下是特定研究问题或项目无数据或可用数据很少的部分原因。

1.3.1 数据不可获取

大部分领域的学者因创造新数据而获奖。利用研究经费通过观察、实验、调查、建模、民族志或其他手段研究新数据比重新分析现有数据更容易。学者研究无数据主题时,往往更易获得竞争优势。学者重新分析现有数据进行研究的领域包括天文学、社交媒体、城市建模、气候学和生物科学中的“理化模拟实验”研究等。
相关数据也可能存在,但拥有者没有义务发布或法律禁止发布,此类数据包括业务记录、专利方法、博物馆监护记录、教育记录和潜在有助于研究的很多其他信息形式。其中,部分数据经其拥有者允许或在个人身份匿名等条件下可以获取。研究机构、*和企业的数据发布趋势也使之前的专有数据具有可用性。
药物或其他临床试验的医学数据争议很大,这些数据具有较高货币和竞争价值,且在临床护理中具有重要作用。由于其与公众利益密切相关,所以患者希望拥有更多访问这些数据和研究结果的权限。选择性发布和报告临床试验数据已成为备受关注的公共政策。虽然本书并未深入探讨生物医学数据,但以临床试验数据为代表的生物医学数据走在开放获取政策和利益相关者关系调整的前列(De Angelis et al. 2005;Edwards et al. 2009;Fisher 2006;Goldacre 2012;Hrynaszkiewicz and Altman 2009;Kaiser 2008;Laine et al. 2007;Lehman and Loder 2012;Marshall 2011;Prayle,Hurley,and Smyth 2012;Ross et al. 2012;Wieseler et al. 2012)。
第5章探讨的社会科学与人文学科中人类相关主题的数据因敏感性而无法进行公开。类似综合社会调查的数据经过一定程度匿名处理后,最可能变成可重用数据。民族志和其他形式的定性数据则几乎只能供采集它们的调查人员和团队使用。

1.3.2 数据不可发布

一些学术领域的数据公开获取具有悠久历史,但对数据发布持积极态度的领域则少之又少。正如第8章所探讨的那样,不发布数据在学术界是一种科学弊端,在其他领域则是玩忽职守。例如,化学中为了重用数据而采集和存储数据的行为被称为“集邮”(Lagoze and Velden 2009a,2009b)。数据具有交换价值和贸易价值,甚至会成为合作者或投资者的谈判筹码。数据一经发布,研究人员就无法控制其使用者、使用方法、使用时间和使用原因,从而产生研究类数据的断章取义、误用或误解等问题,这些都会严重影响研究过程(Hilgartner and Brandt-Rauf 1994)。
最近,相关政策向数据发布迈出了重要一步,其要求项目申请书应当包括数据管理计划。但依旧很少有涉及开放获取数据的政策。相反,研究者必须详细说明采集何种数据、如何管理数据以及数据在何种条件下可供给他人使用。同样,虽然学术期刊数量较少,但越来越多的期刊要求其论文发布对应的数据。数据发布可以通过把数据贡献给社区档案馆或机构知识库等机制,使数据成为学术期刊论文的补充材料,公开在当地网站或按要求发布(Alsheikh-Ali et al. 2011;Wallis,Rolando,and Borgman 2013)。
某些领域的研究者具有专有期(也叫禁令期),即数据发布前的控制阶段。研究者控制数据的时间从几个月到几年不等。该期限使研究者有足够时间分析数据并发表成果,但同时鼓励面向社会发布数据。资助机构或学术期刊通常在学者研究成果发表时或发表不久后,要求其发布数据。很少有学者在发表出版物前进行数据发布,除非已经超出其专有期限或者有诸如临床试验数据发布等其他规则的要求。
斯蒂夫·索耶(Steve Sawyer 2008)认为,数据贫乏领域内的数据隐瞒做法已得到普遍认同。例如,人文学科学者会尽力保护罕见手稿、信件或其他资源。社会科学学者也会保护资料、调研地点和相关数据。物理和生命科学中的研究人员也可能保护调研地点、物种、观察资料和实验。国家也会保护考古遗址、文化遗产资料和其他数据资源,且仅允许本土学者及其研究合作者获取相关资料。贫穷国家的所有领域学者都可能保护他们从机会难得的跨国旅行中带回的珍贵资源。
许多领域的学者都可能在职业生涯过程中不断挖掘从未研究过的数据集或其他资源。诸如物种或现象的累计观测数据等数据集会随时间增值。学者的笔记、记录和资料在其他学者看来,都是有价值的数据。但这种数据仅可能在学者职业生涯结束时才可获得,同时也取决于学者何时把数据提供给档案馆。

1.3.3 数据不可用

使用自己编写的数据说明文档就已经十分困难了,通过编写数据说明文档帮助他人发现、检索、解释和重用数据更是难上加难。投入努力使数据为他人所用的动机因无数社会、技术、政治、经济和情景因素而异,本书将在第8章和第9章进行详细讨论。
发布数据和使其可用是两个完全不同的概念。数据解释所需的必要信息因具体问题、研究领域、专业知识以及研究人员所掌握的资源而异,第4章将借助案例研究对此进行进一步解释。一般而言,编码手册、模型以及对采集、清理和分析数据方法的详细描述是进行数据解释的必要信息。除此之外,数字数据集只能用统计工具、面向仪器的代码或面向领域(领域范围从艺术到动物学不等)的软件等特定软件打开。很多特定软件都有专有性。数据起源和转换相关信息在数据重用过程中必不可少。重用数据距其起源的距离可以按照时间、理论、学科以及其他方式进行度量。无论依据何种方式进行度量,重用的数据距其起源越远,数据集的可解释性或可评估性就越差。
虽然专家能对数据进行准确描述,但如果不能快速编写文件对数据进行说明,那数据可能很快就不能用了。同样,随着创建和分析数据的软硬件版本不断更新,数据集的同步性也越来越差。
数据监护问题的核心是何种数据值得保存,以及数据保存的原因、受益者、保存人以及保存期限分别是什么。数据监护的责任应该由谁承担?研究者?学术社区?高校?资助机构?还是其他利益相关者?第10章将对这些问题进行探讨。

上一篇:击鼓传花:对比 muduo 与 libevent2 的事件处理效率


下一篇:【GOTC 预告】王思宇:从 OpenKruise 看云原生应用负载发展趋势