2.11 经验教训
每件事以前都说过,但因为没有人听,所以我们只好回到起点,一遍又一遍地重新开始。
―Andre Gide
习惯于使用较小的数据项目的大数据管理人员往往忽视了标识问题。本章中描述的最重要的想法很值得重复,其中许多想法对于那些生活在大数据混乱领域之外的人来说是反直觉的和奇怪的。
1.所有的大数据资源都可以被想象为对于数据对象和数据相关事件的一个标识符系统(即时间事务)。大数据的数据资源可以被想象为连接到标识符的字符序列。
2.如果没有一个适当的标识系统,大数据资源就没有价值。资源内的数据不能被信任。
3.标识符是分配给一个数据对象的唯一的字母数字序列。
4.数据对象是数据的集合,它包含自我描述信息,以及一个或多个数据值。数据对象应当与一个唯一的标识符相关联。
5.去标识化是从可能的记录里链接到该记录对象的公共名称的数据记录,并进行信息剥离的过程。
6.去标识化不应与剥离标识符记录的行为相混淆。一个去标识化的记录必须具有相关的标识符,作为一个标识的数据记录就必须有一个标识符。
7.没有标识,就不会有去标识,也没有重新标识。
8.重新标识是指将数据记录与去标识化的记录相关联的公共名称的分配。重新标识有时需要验证一个记录的内容,或提供所必需的一个去标识化的数据记录的对象的信息。重新标识总是需要审批和监督。
9.当一个去标识化的数据集不包含任何唯一的记录(即每个记录有一个或多个附加记录从中不能被区分开来,除了其指定的标识符序列)时,那么就不可能恶意揭开一个去标识化的记录的公共名称。
10.数据清除器从数据记录中删除不需要的信息,包括个人性质的信息,以及与数据记录目的不直接相关的任何信息。数据去标识化是一个过程,其中记录主体的公共名称将被删除(见术语表,Data cleaning,Data scrubbing)。
11.速度最快的数据清除方法包括准备已证实的单词和短语的列表,列表可以在数据记录中被保留,并删除未核准名单中发现的每一个单词或短语。