如果你曾经去过罗斯福岛,你应该见识过那里的六千英里公路,六百英里地铁线路,四百英里自行车专用道和半英里的有轨电车轨道。
这些数字组成了纽约的基础建设。这是我们基础建设的统计数据。你可以在市政机关发布的报告中找到这些关于基础建设的统计数字。例如,运输部可能会告诉你他们维护着多少英里的公路,纽约交通管理局(MTA)会自夸他们有多少英里的地铁线。许多*机关能向我们提供这些统计数字。这里有一份来自出租车和轿车委员会的报告,告诉我们纽约有约13500辆出租车。很有趣,是么?但是你们有没有想过这些数字从哪里来?这些数字的存在,一定是因为市政机关的某个人想到:“可能有人想知道这些数字。”我们的市民想知道这些数字,所以他们找回原始数据,计数,相加,计算,然后发布报告,这些报告给出那样的数字。
那么问题来了,他们怎样知道我们所有的疑问?我们有许多的问题。事实上,从某些方面讲我们关于自己的城市有无数的疑问。机关部门永远也赶不上我们的节奏。所以现有的模式并不十分有效,并且我认为决策者也意识到了这一点,因为2012年,市长彭博(Bloomberg)签署了一项决议,被称作是”全美最有雄心和最综合性的开放数据法令“。从很多方面看,他都是对的。在最近两年,纽约市把1000个数据库发布在了公开数据的门户网站上,简直是棒极了。所以我们可以来审视这些数据,除了出租车的数量,我们开始问出各种各样的问题。
我有一个问题。纽约交通的高峰是什么时候?这个问题很烦人。准确的交通繁忙时段到底是什么时候呢?我自己在想,这些出租车不仅仅是一些数字,他们是行驶在我们城市每条道路上的GPS记录器。它们会产生数据,我查看这些数据,制作一天内出租车平均速度的图表。你可以看到大约从午夜到早晨5:18,速度在增加,到5:18这个拐点,速度开始越来越慢,直到清晨8:35左右,时速开始保持在十一英里半,一整天都是如此。所以我说,纽约根本没有交通高峰时段,这里一整天都是高峰。这个结论是有意义的,原因有几点:如果你是个交通规划者,可能对此很感兴趣。但是如果你想快点到达某个地方,现在你该知道怎么办了——把闹钟设在凌晨4:45。在纽约,这样做没错吧?
不过这些数据背后还有个故事。数据被证明不是现成的。实际上还需要做一个*信息法案申请,也叫FOIL申请。在出租车和轿车委员会的网站上你能找到这个表格。你需要填写这个表格,然后等待他们的通知。一个叫做Chris Whong的人这样做了。他们告诉Chris,“带一个新的移动硬盘过来,五小时后再来取,我们会把数据复制在你的硬盘里。”你看,数据就是这么来的。现在,像Chris这样的人希望把数据公开,所以它被发布到网上,才能做出这张图表。这一切那么不可思议——这些GPS记录仪是在是太酷了。但是事实却是我们的市民要带着硬盘跑到市政机关去拷贝数据再把他们公开,这的确是某种“公开”,但不是真正的公开。我们可以做的更好,不需要让市民带着硬盘跑来跑去的。
现在,不是所有的数据库都需要FOIL申请。我根据自行车事故数据做了一个地图,标出了纽约最危险的路口。红色区域更危险。先来看,在曼哈顿的东边,特别是下城区,有更多的自行车事故,这可能是因为更多骑自行车的人从桥下过来。其他的热点如威廉斯堡,皇后区罗斯福大道也很值得研究。这就是Vision Zero需要的数据,也是我们正在寻找的。
这些数据的背后也有一个故事。这些数据也不是现成的。有多少人认识这个标志(Adobe PDF的logo)?我看到一些人在点头。你们有没有试过从PDF文件复制粘贴数据?我看到更多人在点头了,比起认识这个标志,你们中更多的人试过PDF复制和粘贴,这很有趣。
你们刚看到的数据实际上就在PDF中。成百上千页这样的PDF由纽约警察局发布。为了访问数据,你要么就得花费数百小时的时间复制粘贴,要么你就成为John Krauss。John Krauss 就是这样做:“我不想复制粘贴这些数据,我要写个程序。”这个程序就是”纽约警察局事故数据创可贴“(NYPD Crash Data Band-Aid),从NYDP的网站上下载PDF。每天进行搜索,下载搜索到的PDF文件,运行PDF解码程序,提取文本,发布到网络上,然后人们就可以制作这样的地图了。这些数据就在那里,我们都可以访问——每个事故都是数据表里的一行数据。你可以想象那里有多少这样的PDF。我们有权访问固然很棒,但是请别发布在PDF里,幸亏我们的市民自己写了PDF解码器。这是对市民时间的浪费,我们本可以做的更好。
现在有个好消息是de Blasio 行政部门在几个月前发布了这些数据,我们可以直接访问,但是仍有许多数据是PDF格式。例如,犯罪数据和城市预算数据只有PDF格式的,不仅是我们不能拿数据做分析,连我们的立法者都只能得到PDF格式的预算数据。所以立法者也不能分析他们要为之投票的市政预算可不可行。我们的城市肯定可以做的比这好。
当然,有很多的数据不再被埋藏在PDF里了,比如我制作的这个地图,纽约最肮脏的水路。我是怎么衡量“肮脏”的?可能听上去有点奇怪,我衡量粪便菌群的水平,这是水路粪便物的一个衡量指标。大家看内陆水道就是:圆圈越大,水质越脏。就是说大圆圈内是脏水,小圆圈的是干净水。这是纽约市在过去五年里采样的所有数据。通过这个图我了解到几件事,1:永远不要在某“溪”或某“运河”里游泳。2:纽约最脏的水,仅就粪便菌群这个衡量指标而言,是康尼岛溪。幸好不是你们去游泳的康尼岛,它在岛的另一面。而康尼岛溪在过去五年内,有94%的采样显示含有超标的粪便含量,以至于被州立法律禁止游泳。
这肯定不是你想在市政报告里炫耀的事实,它肯定不能出现在纽约*官网的首页,你在那肯定看不到它,但值得庆幸的使我们还能够得到这样的数据。但是再强调一次,这并不容易,因为这些数据并没有公布在公开数据的门户网站上。如果你去公开数据的门户网站,你可以看到其中的片段,一年或者几个月的数据。这确实是环境保护部的网站上找到的数据。每个链接都是一张Excel表格,并且每一张表格都是不同的。每个标题都不一样,你需要复制、粘贴、确认。你能够做出地图当然是好的,但是我们的城市可以比这做的更好,我们可以使数据标准化。
我们正在慢慢改进,因为Socrata公司建立了一个网站,叫做“纽约市公开数据门户网站”。这有1100个数据库,在这里得到数据并不需要经历我刚说的那些痛苦,并且这个数字还在增加,这很棒。你可以用任何格式下载数据,CSV,PDF或Excel文件。无论你想要什么,你都可以下载。但问题又来了,一旦你这样做,你会发现每个机构用的地址代码都不一样。有街道名,路口名,自治区,地址,建筑物,建筑物地址。你不得不花时间规范地址数据,即使我们已经有了这个网站。这也不是最好的利用市民时间,我们的城市依然可以做的更好。我们可以标准化地址信息,做出更多这样的地图。
这是纽约市火警消防栓的地图,但不只是消防栓。这可是最容易吃到违章停车罚单的250个消防栓。从这个地图我也学到了几件事,1:别在上东区停车,千万别。不管你停在哪,你都会吃罚单。2:我发现了全纽约最容易吃罚单的两个消防栓,它们都在下东区,而且他们每年在停车罚单上都要挣超过55,000美元。我注意到这点有些奇怪,所以深挖了一下,发现原来每一个消防栓都有一个叫控制扩展的东西,有七英尺的的空间可以步行,然后是一个停车位。所以当车开过来,到消防栓附近,司机会想,“还有一点距离,没问题的,”何况这还有那么棒的一个停车位呢。于是他们停过来,可纽约警察局不同意这种行为,就给他们开出了罚单。可不仅仅是我吃到过这样的违章停车罚单,谷歌地图拍到过一辆车就是这样吃了罚单。
因此我把这件事写在我的博客和“I Quant NY”上,交通部回复说,“尽管交通部没有在此地点收到过任何的投诉,但是我们将检查道路标志并且做出相应的调整。”我心里想,多么典型的官方回复,那好吧,我就没有再管这件事。
没想到几周后,不可思议的事情发生了。他们重画了停车位,那一刻我觉得我看到了公开数据的未来。想想这些年发生的事,这五年来,这个停车位一直让人吃罚单,这很让人费解,一个市民发现了某些原因,反应给了*,然后在短短几周之内,问题就被解决了。这太不可思议了。很多人把公开数据视作是对*部门的监察,而它并不是,它是个好帮手。我们允许市民成为*更好的伙伴,并不是那么的难。我们所需要的不过是一点点改变。如果你正在申请信息*法案(FOIL)数据,如果你看到你要的数据被反复的请求获得,让我们直接把这些数据向公众公开,这是一个这些数据应该获得公开的信号。如果你负责*机构PDF数据的发布,让我们通过立法要求你直接发布源数据,因为这些PDF数据肯定来自于哪里,我不知道是哪儿,但是它肯定有来源,让你得以发布在PDF中。让我们采用和共享公开数据的标准,让我们从地址信息开始,开始规范我们的地址。因为纽约是开放数据的引领者。抛开问题,纽约无疑是开放数据的领导者,如果我们做规划化的工作,制定数据公开的标准,其他人也会跟随。纽约州会跟随,联邦*可能会,其他国家也会。我们也许在不久的时间内开发出涵盖100个国家地理信息的程序。这不是科幻小说,我们已经很接近这个目标。顺便说一下,谁是被帮助的人?不仅仅是John Krauss 或者Chris Whong。纽约有几百个聚会正在举行,活跃的聚会。几千个人参与这些聚会,这些人用工作之外和周末的时间参加聚会,研究开发数据,帮助我们的城市变的更好。BetaNYC就是一个这样的团体,他们上周刚刚发布了citygram.nyc,允许人们订阅自己家或公司周围的311个投诉。你输入地址,就能看到本地的投诉。这些事背后的不只是技术社区,我在Pratt教的学生们也在做城市规划,还有政策推动人,还有每个人,有着不同背景的多样化的市民。有了这些小小的改变,我们能够释放市民的激情和能力利用开放数据,使我们的城市变的更好,哪怕一次只公开一个数据库,或者发现一个停车位。
原文发布时间为:2015-03-16
本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号