比大数据还要可怕的是什么?没有数据!

导读当有太多数据需要处理的时候,你可能会为此抓狂,而旧金山警局却对此求之不得。原来,没有更多的可利用数据才是巨大的挑战。


怎么才能从多结构和非结构化的数据源中提取并整合数据?对一些机构来说,这是一个艰巨的挑战;对另一些人却刚好相反,他们正经历着巧妇难为无米之炊的困境。从他们的角度来看,没有更多的可利用数据才是巨大的挑战。这不禁让人联想起在东部的波士顿白雪皑皑,寸步难行的时候,西部的旧金山却是旱情绵绵。


这个再恰当不过的比喻,是受到了一次谈话的启发。旧金山郡警督Ross Mirkarimi和他们IT组成员Dave Hardy跟我聊起他们现在怎么处理相关数据。在旧金山警局,现在处于一个吃力不讨好的境地,他们试图将大量的结构化数据汇集在一起。这可不是一件轻而易举的事情:Hardy使用Microstrategy的商务智能工具尝试着从多种结构化数据库中收集数据。这些工具包括FoxPro, Access, Filemaker Pro等


既然旧金山警局有大量的结构化数据需要处理,那么所谓的数据旱情又是怎么来得?他们没有非结构化的数据。他们希望自己能像其它公司一样,拥有需要整合的非结构数据。 “我喜欢科技”,Hardy说。他曾是一名巡逻警员,目前已成为信息技术支持与服务部的指挥官。他还说:“这是一件好事,创新和自动化让一线同事的工作更容易。我喜欢利用数据做一些重要的举措。”


但Mirkarimi,这位前旧金山城市监察员,却哀叹可供执法使用的数据就跟加州的雨一样少得可怜。“执法需要更多警力来应对犯罪威胁” ,他说,在现实中,我们希望对犯人的问责是由数据决定的。与其让一个活生生的人像接力棒一样在警察、公设辩护人办公室(美*对无钱聘请律师的被告指聘的律师)、缓刑与假释部门间传递,我们不如放弃成见,共享数据。这样,使我们在判断个人是否守法时,能够更清晰的了解他的倾向性,个人历史并预测他的个人行为。


州*计划削减已超载的州*人数,并将犯人送返至各个郡下设的*。因此,旧金山警局被要求做一项他们从来没做过的分析项目(旧金山是一个罕见的行政实体,在编制上,它即是一个市又是一个郡)。即使没有结构化数据,Mirkarimi 依然声称,累犯人数已经从60%以上下降到差不多40%,然而州*的标准是接近78%。


旧金山警局还想做更多,但是它无能为力。必须得承认,手头只有结构化数据确实是其中的问题之一。Hardy说,能整合的只有“小数据”,这些小数据是人们在通过系统时生成的,像是地址、量刑、指纹;他们在*里参与了哪种治疗或是教育项目;他们是否再次因罪获捕,如果是,那又是为什么?所有的这一切都在一个SQL结构化数据库里。可是为了能够达到目的,Hardy和Mirkarimi需要更多。


旧金山警局罪案调查处署已经开始追踪社交网络,及时识别“热点事件”,但是在追踪和分析整合数据之间,还有很大的距离(Microstrategy有分析社交网络的工具,但是旧金山警局没有用)。 Hardy设想,建立一个网络来联系所有的*部门,从警长办公室到健康卫生部门甚至延伸到学校社区。“我的设想是,在不侵犯隐私的情况下,我们能够进入这些部门的数据库收集所需数据,并与我们现有的数据相比较。想想看,我们是否可以识别某个学校或是某个居住区的某个群体是否有更大的可能性在他们22岁之前被逮捕? ”Hardy还想进入联邦数据库去看看囚犯是否是退伍军人,是否有资格享受美国*的一些特设项目。


为了能采取积极措施,Mirkarimi特别注重分析监禁过程对囚犯子女的影响。“最终,当你可以将这些完全不同的数据源结合起来,它能帮助我们了解那些坐在拘押室里的人。” 他的目标很明确:真正改变旧金山,为过度拥挤的*减负,通过了解对家庭的影响,“为犯人的家庭与子女带来更积极的帮助”。他同意收集和分析如此之多的数据,有点像奥威尔的小说《1984》中所描写的监视社会。尽管如此,就目前的情况来看,这种方法是有实际意义的。我们将不得不摸着石头过河。


“刑事司法机构也很难人性化与系统内部监禁人员的关系”,Mirkarimi说。“数据越周详,我们越能人性化的调整监禁对当事人以及他们的家人的影响。我宁愿站着数人头,也不愿坐着做统计。这就是我们如何能使这套系统更有效。”


固然,这是个大挑战。让这个挑战变得更为艰巨的,是目前旧金山警局还无法获得他们所需要得到有效数据。请记住!当有太多数据需要处理的时候,你可能会为此抓狂,而旧金山警局却对此求之不得。


原文发布时间为:2015-06-01

本文来自云栖社区合作伙伴“大数据文摘”,了解相关信息可以关注“BigDataDigest”微信公众号

上一篇:分布式事务是什么,在什么情况下产生的, 有什么解决方案?


下一篇:大数据+人工智能正以八种方式撼动商界