在芝加哥市长Rahm Emanuel在任期间,该市的前任首席信息官开发了一款整合多个数据源的地理信息系统。如今,这位CIO正在把项目提升到一个新的阶段。
2011年5月,Brett Goldstein被任命为芝加哥历史上第一位首席数据官(CDO)。随后,他发现自己面对着一个普遍性的IT难题 -- 芝加哥的市政数据散布在多个地方,整合的难度极大。对此,Goldstein半开玩笑的表示,当时的数据整合工具就是电话和办公室之间的来往信函。
这一切都需要改变,而且迫在眉睫。芝加哥将于2012年5月举办北大西洋公约组织峰会,届时将有大量的*者涌入。Goldstein设想为公共安全部门提供更好的地理位置信息,亦即能够了解到任何时间任何地点所发生的事情。为了达成这一目标,Goldstein在2012年被任命为芝加哥的首席数据官和首席信息官,开始对各类分散的数据进行整合,而且不能对该市的IT基础架构进行大的改动。
“我们是个大都市,拥有庞大的IT系统。我们不能总是不停地更换软硬件,但这也不能成为我们安于现状的理由。”Goldstein表示。
在不进行巨额投入的前提下,Goldstein(现已是芝加哥大学城市科学专业的高级研究人员)开始了这项旨在让芝加哥变得更加智能化的项目。Goldstein并没有试图去消除各种数据藩篱,相反,他希望建立连接各个数据源之间的通道。最终,实现IT在公共事业领域的战略性影响。这需要在技术、数据、流程和人的巨大转变,反对者们认为这是一项不可能的任务。
从OpenTable到芝加哥警察局(CPD)
Goldstein是带着不平凡的履历走进芝加哥市政大厅的。Goldstein毕业于Connecticut College,而后又拿到了芝加哥大学的计算机科学专业硕士学位。在911事件发生时,他正致力于让OpenTable成为在线订餐的霸主。当时,在听到这个令人震惊的消息时,Goldstein发誓在OpenTable的工作告一段落之后,一定在公共领域做出一番事迹。2006年,他加入了芝加哥警察局(Chicago Police Department)。
“我当时分别在OpenTable和警察局各待一周。”Goldstein回忆说。之后,他被调到警察局总部,要求将其技术上的积累运用到工作中。
当时,Goldstein从美国国家司法研究所(National Institute of Justice)得到了20万美元的经费,用于筹建芝加哥警察局的预测分析团队。该团队对911报警电话的数据进行了分析,以此来预测热点。尽管这项工作遭受了一些批评,Goldstein还是得到了新任市长Rahm Emanuel的肯定。之后,Emanuel就任命这位具有计算机专业背景的警察担任芝加哥的首席数据官。
“2011年,我们开始了一个大型的开放数据项目。”Goldstein在10月举行的Strata+Hadoop大会上说:“我们发现,通过数据的开放和流通,解决了很多看似不相关的问题。”
有一个例子可以引起所有城市车主的共鸣:当时,芝加哥市和Web开发者Scott Robbin试图开发一款街道打扫相关的应用,可以在需要时提醒车主把自己的车移开。Goldstein对此非常支持,但是清扫街道的日程安排来自于街道卫生部(Department of Streets & Sanitation)的数据 – 先是模仿Outlook日历的形式生成一个Excel表格,然后在转化为PDF文件。PDF文件很难被计算机直接读取和分析。为此,Goldstein提出了解决办法,使得数据最终可以通过开放数据门户对外提供,Robbin也因此得以成功的开发了Sweep Around Us应用。
“长久以来,城市的运转已经了固定的模式和方法。”Goldstein表示。各个部门已经习惯了独立运作,没有意识到相互协同可以为纳税人带来更好的生活:“我们需要把分散的数据整合起来,从而挖掘出各部门可以协同运作的环节。”
以空间索引为基准
实际上,对于2012年北约峰会的准备工作,Goldstein就是从这个角度切入的。基于开源的NoSQL分布式数据库MongoDB,Goldstein认为自己已经找到了打破数据藩篱的技术方案。
经过四个月的工作,Goldstein构建起了基于MongoDB的*数据库原型,并且引入了911报警系统、311城市服务热线系统、公园和娱乐部门(parks and recreation department)和规划部门的数据。
“城市数据大部分都是空间相关的,都能够以经度和纬度为标准进行整合。”Goldstein说:“你可以以此构建统一的空间索引。”包括犯罪记录、车辆GPS数据、来自于Twitter等外部数据源的位置信息等,都能方便地整合在一起。
在这个曾经名为WindyGrid的原型得到批准之后,Goldstein及其团队又构建了大型的ETL架构,能够从原有的IT系统中抽取实时数据到MongoDB数据库中。在系统前端,Goldstein利用了原有的技术 – 来自于Esri的一个数据可视化工具。可视化技术为用户提供了非常友好的界面。基于这套系统,用户可以得知来自于特定地区的任何911报警电话信息。
另外一个重要之处在于,芝加哥只用了不到10万美元就构建了WindyGrid系统。“事实证明,你可以用非常低的成本构建类似的系统。”Goldstein说。如果以传统厂商的报价来估计,这套系统的造价可能会超过2000万美元。
“无论你在*、创业团队或者大公司,你可能都会觉得必需要很大的投入才能干成这个事情。通过WindyGrid的成功,我们颠覆了这种观点。”Goldstein表示。
从WindyGrid到Plenario
在北约峰会之后,Goldstein试图将位置感知升级到预测分析的层面。这个想法来自于他研究生时期的研究工作,从整合911通话数据时开始着手推进。如果某位居民拨打911电话反映某地有人卖毒品,电话记录会被存储下来,同时派出警车到事发地。但是如果在警察到达时没有发现犯罪行为,这次报警就会被归类到“未发现”项中。而在传统的模式下,这类数据将会被最终忽略掉。
通常,这类“未发现”的报警记录被认为是脏数据,或者是包含错误的数据。但是,如果将海量的这类数据整合到一起,就能抹平其中的偏差和错误,从而形成预测分析的坚实基础。“这类数据是极具价值的信息输入。”Goldstein表示。
尽管谈不上纯净,这类数据却可以提供一种实践的路径。“有些可以用作研究成果发布,有些则可以带来运维的便利,这其中的区别通常会被忽略。我认为,我们需要沿着这条路走下去,从而提升业务水平。”Goldstein说。
一个涉及数据分析的项目是基于311服务电话的数据。“我提出了这样的假设,即311电话数据与更小的空间单元有关联性,可以用来预防诸如犯罪等问题。”Goldstein在Strata大会上表示。他的团队开始寻找蕴藏在芝加哥26000多个街区内的模式,而且确实有所收获。
Goldstein的团队发现,凡是打311热线反映有垃圾车破损的街区,也会反映鼠害的问题。具体而言,以反映垃圾车问题的311电话为信号,有大概7天的时间窗口来提前应对鼠害的问题。“这其中的有趣之处在于,为什么这个模式之前未被发现?因为这只发生在某些而非全部街区中。”Goldstein解释说:“我们已经习惯于那种基于整个系统的假设,但如果分析局部地区的连续数据,你就能发现其中蕴含的相关性。”
对于鼠害的提前预防也许未必能对成本有多大的削减,也未必是消灭城市鼠害的关键措施。但是,Goldstein认为“积小成多,对大系统的微小改变最终也将导致重大的影响”。
自从去年离开*继续自己的研究之路后,Goldstein的关注点仍是数据的可访问和可分析性。作为芝加哥大学Harris School of Public Policy城市科学领域的高级研究员,Goldstein的一项主要工作就是研究如何让用户能够更为方便地使用数据。
9月,芝加哥Urban Center for Computation and Data(Goldstein同样也在这任职)发布了Plenario的alpha版,将WindyGrid背后的技术理念运用到全美范围内。Goldstein的工作主要是开放数据集的转换,即将他所称的“网上的表格”转化为易于被计算机读取并分析的格式,然后与其他数据集相关联并实现可视化。
根据其主页所言,Plenario是一款自动化的ETL工具,能够从城市、郡、州和联邦*处抽取开放数据集,进行格式转化和标准化,最后将数据加载到数据库中。*机构所开放的数据越多,Plenario就能构建更多的ETL hook。Goldstein和UrbanCCD把主要精力放在了后台建设上,而模式发现和预测分析的事情完全交给用户。
“对于这类项目,人们通常关注的是那些性感炫目的分析。”Goldstein表示。但是,令人惊艳的分析需要有坚实的基础,即由IT所支撑的数据整合和清洗等工作。“这才是问题的根本所在,因此我们将沿着这个方向持续推动Plenario今后的工作。”他说。