成为数据驱动型城市意即在提供城市核心服务时做到效能更高、效益更好。实现数据驱动的主要挑战不在技术,而在导向及组织领导。
各学院研讨会、各公司管理顾问以及《华尔街日报》(Wall Street Journal )全体如今都开始对一样东西关注有加,这样东西叫做“大数据”。普遍定义中,发展中的大数据即一信息集,
其所含信息量远大于我们通常分析的信息量;它由机算生成,经常制作,往往以地理位置为标。大数据的应用通常是后话,数据数量、如何入库以及“越多越好”的习尚下所推定的假说才是真正的焦点。建功立事确是大数据所能,但不当把它与数据驱动混为一谈。
讨论大数据时,数据结果常因其可有可无而遭漠视。诚然,数据泉涌而来,然而涌泉毕竟是救火时才倍显其值重。在CSV文档中收集关于交通方式的数据本身并无补益;所得数据用于交通地图制作以及城市交通再设计时才是数据价值彰显之时。不过,CSV文档、地图、交通模式都并非要旨,真正的关键其实是结果:用数据优化交通、缩短通勤耗时、减少机动车数量、提高城市空气质量、划出人行横道及自行车道以降低行人和自行车同轿车卡车相撞事故量,让大家的生活更快捷、更清洁、更安全。
欲寻管理良好、专心建设、数据驱动的样板,美国主要城市可以一看。市政府提供的服务是现代生活的支柱:我们每天早晨刷牙的水由此而来,我们去上班所经的马路、所乘的公交、所搭的地铁由此而来,清扫道路、美化公园的人员,教育我们子女的学校,还有保障我们平安的警力和消防队,亦悉数出于市政府。我们看到,越来越多的美国人谋求住在城市里。向着城市里经济和文化上的机遇,美国人及外来移民涌来与千百乃至上万其他市民一同追求梦想。吸引他们的并非宽敞的住房或者豪华的交通工具——实际上他们反倒是频频易手房屋和交通公工具。他们是为了过上城市生活而来的。
大量城市移民给基础设施带来了更高的要求:水、下水道、火、住房、医疗、教育、停车等等均需加强。而与此同时,城市却愈加缺乏强化上述方面所需的资源。过去十年的经济情况导致城市人均课税数额更低,这就是说诸市长及城市领导被迫以短缺迎战重荷。如是,实际操作中就得另辟蹊径,以求籍由现行的系统、流程获得更优的产出、成果。
数据驱动型城市会利用数据来提供更好的关键服务。透明、公开数据和创新都是现代城市标志的重要部分,在纽约这样注重强化其技术领头羊地位的城市尤其如此。不过,数据驱动型城市的内涵是在传递城市的核心服务上更有效率更有效益:基于风险更合理地配置资源,将数据融入城市前线工作者既成的每日工作模式成为数据驱动型城市的主要调涨不是技术问题,而是导向和组织领导问题。就纽约莱卡,是2011年一系列住房或在是将把我们的注意力集中到了数据在拯救生命上的功能——此处所说“数据”系我们已有的数据。
布朗克斯和布鲁克林的房屋火灾
2011春,布朗克斯和布鲁克林发生一双房屋起火,五人死亡,起因是住房环境不安全。这类火灾不是孤案。许多人挤进不安全的住房环境里,他们带着便携的厨具、不保险的电线,住所逃生通道又有限,此情此景下发生火灾,自然会夺命。类似事件在纽约这样人口稠密的城市稀松平常。怨言住房有安全隐患的市民反应,纽约每年能收到超过20000条。
纽约收集了各幢建筑的大量信息。我们清楚各房各屋建造的时间和方式,知道它们眼下是否用水即是否空关着;我们明白它们是否状况良好,依据是ECB(环境投诉委员会)的生活质量类事件介入记录。我们每天接到纽约市民拨通311提出的服务请求(投诉)超过30000件,从中可以越加了解特定方位的情况。我们对建筑物所在小区更是了若指掌:911去那条街面的频度,马路是否正在施工,路口是否出了事故,该楼中各单位做什么业务。
前面所述两处楼房起火之时,市政府手中关于它们的信息由:税务留置情况、关于房屋的投诉、卫生违规记录和墙体问题记录。我们是否在火灾前对房屋已有足够了解、理当早些警觉起来?我们能否定夺手头信息里哪几条最为重要、能够用于预见危情?我们市长办公室数据分析小组奋起寻找答案。
分析非法改造房的问题
提供安全宜居、数量充足、价格低廉的房屋是每个社会的领导者公认的重中之重,上至都会纽约,下至25000人小镇,无不如此。移居纽约的人每年增加,住房需求随之增大,租金顺势上涨,寻觅廉价住房的个人因此频频碰壁。
有鉴于此,城市在兴建廉价住房及维护已有廉价房上持续投资。然而道德薄弱的房东往往化高需求为谋利机会,借提供标准房来营私。他们对空间进行再分割,毫不考虑消防通道的承载力。他们给单式家庭房装上锁定插销后当作宾馆房间那样租赁。他们在车库里装上台盆和马桶、用胶条封起门来,如是租出。他们在地下室边架床,床铺紧邻锅炉,而地下室本是极易发生一氧化碳中毒和锅炉爆炸的地方。一言蔽之,他们粗莽地过度利用狭小空间,将卫生条件问题抛诸脑后。市政府将这种标准房称为“非法改造房(illegal conversions)”。
纽约市建筑规范分类法(New York City Building Code)有一个基本目标:安全。这规范绝非冯虚造出,它是城市里上百年民事执行当中不断提出、修订而来的,常常是对灾难性事故的回应。对消防通道的规定、对空间尺寸的规定、对地下室居住的规定等等,都是为保证纽约市民不在建筑物事故中丧生而设的。纽约市安排了房屋检查员以便执行建筑规范,检察院会在房屋建造过程中前往检察并持续监控直至施工完成。这些人都是训练有素的职业人员。一旦发现非法改造,他们就会强制执行规范,或确保非法部分尽快改到符合标准的样子,或清空该空间内人员以免他们遭灾。然而,每日都有新居民搬进城市,房东又极想占这些人——尤其他们之中最经不起爆炸事故的那些——的便宜,市政府必须持恒地对非法改造住房问题进行更多评估。
纽约单个最大的非法改造情报源是带着忠告来拨通(或登陆网站或使用手机应用)311的纽约市民。我们在街上有数百万明眸聪耳,每天供给我们30000条以上的新情报。那些情报通常都有即时、直接的价值;一条路灯熄灭的街道上有人打来电话,我们便能派人去换好灯泡。几乎每桩路灯熄灭的报告都是真切的,即路灯确实是不亮了。只要看看灯杆是否闪烁就能知道路灯是否已坏。然而要看出住房遭到非法改造要比看路灯是否真的坏了复杂得多。报告者通常无法直接进入可疑空间,他们只能通过外观所见进行推论假设,他们观察的内容包括进出建筑物的人数、街上停了多少辆车、房屋中居民倒出多少垃圾等。不得是,311接到的非法改造举报里,确有其事的只有百分之八。
非法改造过的居住空间祸害至大,因为那是最易丧命的空间。我们接报而派检察员去实地检查,92%的情况中被举报处并无严重安全隐患。这92%的报告并非毫无价值,它们往往能引领检察员发现风险稍低的改造,报告中对特定地点的描述则帮助我们建立起对该地的了解。不过毕竟,我们的检察员人数有限,而检察员的时间也是有限的。我们真正想做的是筛选关于非法改造的成堆311举报,找出其中最严重的那百分之八。那八分之八的地方是检察员要即刻前往的地方。
感谢布隆伯格市长(Major Bloomberg)十二年的领导,他是全国最为数据驱动型的市长,我们因此拥有充足的数据以搭建灾难风险模型。通过分析历史结果(过去的非法改造记录)、确认被报地点与那些历史记录的相似之处,我们成功创制出一个风险模型,每个从311报上来的非法改造投诉都能归入到这个模型里,把新来的投诉举报与我们对设施房屋的已有了解配对起来,就能预测出投诉是否足据、那里是否真有严重隐患。
值得注意的是,虽然我们小组现在使用着精密的工具和数据,项目启动之初我们所拥有的却只是老式的台式计算机以及旧版微软Excel软件,录入36000行数据后就出现了死机。虽然用的是几乎每台商业机上都装载的早期工具,我们幸得以为能干的年轻分析师,实现了相关分析,从中获知我们应从311投诉中寻找什么。
由于能够将投诉按照真实度排出优先顺序,我们补救危情的速度变得更快了,且未因此多加人工。这是一项基于安全的资源配置计划。
收集驱动分析的数据
房屋建筑部(Department of Building)中过滤非法改造风险的经历让我们切肤体会到获取行政部数据并理出头绪是多么困难,尤其数据集还是来自不同城市的行政部、分析时又要同步进行。
大型组织里的各个部门一般都各自为政,例证这一问题的最佳组织莫过于城市。疋似纽约市,行政部门有四十多个,雇佣员工超过290000名。按照传统,这些部门只专注于自己负责的领域(警务、防火救火、卫生保健,等等),它们互不相关,各部间也不共享数据。即使是做多个部门的分析师一齐进行跨职能分析的特别项目,数据共享也只是一次性的且只能用于即时分析。可用于衡量绩效、迭代解法的持续性数据合作是不存在的。要实现数据驱动,一半要仰赖数据联通,而实现数据联通是个组织层面的挑战,并非技术性挑战。
收集数据与联通数据之间又一个重要的区别。数据的收集是建立在领域内服务的实际执行上的。我们分析小组手握颇具战术性的数据,如风暴吹倒的树木数目。我们的工作就是分析现今所收数据。举个例子,公园管理部(Parks Department)就如何料理树木、如何记录信息做出决定,我们承接任务但不会令数据收集妨碍到紧急处理。以分析为由改变收据收集会引发政治问题,至少会导致一线重新培训这样的组织型问题。我们并未不断催要新数据,而是运用已有数据,并随着各部门操作的现代化改进而间或咨询各部门。幸运的是过去十年以来,城市正向业务报告度量制迈进,可获得的数据已经颇具规模。在布隆伯格市长的带领下,所有的行政部都开始对照年度目标衡量部门表现,并把结果直接呈报给纽约市民。年度目标的重要性不言而喻,不过我们真正感兴趣的事追踪表现所用的数据。
数据联通不同上述。在过去,公园管理部礼拜三移走一株倒在人行道上的树,交通部(Transportation Department)则礼拜四来修人行道,而我们无从将此二者的数据连在一起。第一个问题在于两个部门办公地点不同。第二个问题在于即使两个部门同在一处,我们仍没有明晰的办法可以将它们联通起来。各部在术语以及数据上有其自成一派的本体论,那些术语、数据均产生在合理的服务发展过程中,但它们有时正因此而落得几近无法联通。一个部门可能使用地理信息系统(GIS)来定位倒下的树木,而另一个部门可能用街道名称来定位那些树木。
就我们而言,我们认为BBL/BIN(城街楼区块识别/ 建筑识别号)配上women的一名分析师编写的专地理编码专门软件程序便是联通城市操作情报的金钥匙。对多数城市行政部来说,BBL和BIN是定位时使用的标准方式;不过并非所有部门都使用BBL及BIN,这两套系统也非普适。然而我们可以拿出任何已有的地理数据(一个地址、一个十字路口等等),就最临临的BBL/BIN对其进行地理编码。通过关注最普通的共性即特定地点的结构,我们便能把未尝相连的数据集连结到一起。
综合数据地位举足轻重,这是因其在强化问题解决中的应用而决定的。我们假以作相关性分析的信息越多,我们就越能过滤风险。过滤非法改造的案例中,最重要的两项输入信息是:该房屋现在是否在缴财产税,银行是否有任何抵押赎回权的存档。此二者来源不同——前者得自纽约市金融部门(New York City Department of Finance),后者得自法庭行政办公室(Office of Court Administration)(按揭违约记录),必须要持续从这两方获得信息才能有效进行过滤。
联通数据、分析数据的能力再强,我们还是受制于行政部,我们想作检测必须要它们来提供数据。获取数据的一种途径是要求对发配合我们的项目。然而任何参与过小组工作或者商务工作的人都明白,要求配合极少是最佳方案。我们必须向诸行政部推销我们的服务。行政部是提供城市服务的,而我们真正在做的是帮助他们更高效地提供服务,因此我们视他们为客户。我们帮他们解决问题以便让他们轻松些。从理论上到事实上,我们所做的都关乎他们。每日保证城市清洁安全的事他们,如果我们能够阐明,我们将费力甚少、留痕甚浅地帮助他们做得更好,他们就会愿意与我们合作。结果,不出所料,我们在获取服务他们所需的信息上从未失败过。
需要注意的是,很多数据依然是对我们保密的。我们目前尚无纽约市教育部(Department of Education)和内部雇员管理系统的粒化信息。污水处理厂、具体街道上的花粉浓度等的特定数据也不为我们所知。请记住,并不是非要面面俱到后才能迈开步,相反,需要的是一个理由,把请求来的信息收集、联通起来的理由。项目需要污水处理厂特定信息时,我们会前往环境保护部(Department of Environmental Protection)收集数据,然而在取得信息之前我们都会仅凭已有信息工作。想要成功,最好的办法就用合理、项目为基的方式收集和联通数据。
诸行政部是我们的客户
向各个行政部收集信息就等于是请他们允许我们进入他们的IT系统、共享那里的所有数据。他们并非必须点头,但他们确实会同意,原因有二。首先,参加了数据交换便能得到其它部门的数据,这让他们不必再在每月首个周二致电另一部门的IT处提出一次性数据查询请求,他们可以通过我们的数据共享平台自动获得所要信息。第二,也是更重要的一点,行政部们愿与我们共享数据是因为我们帮得上他们。
数据没有具体产出就价值微小,集中化的分析小组也是如此。明智工作的分析小组并不去找新问题来解决,而是与领域内的小组合作解决现有问题,这样工作效率倍增,工作量也不会太重。
实际办事的是各个部门由其部门员工,他们是清楚部门服务提供中所有细节的人。这些人就是能告诉我们观察入微的信息的域内队伍,他们提供的信息包括现状以及我们要怎么做才能解决问题。而且,将会执行我们通过分析找出的解决办法的也是他们。要切实提供更有价值的服务,很重要的一点便是保证这些人站在一线。而要确保他们的积极性,就一个会影响他们日常生活的问题开展工作是最好的办法。
建筑检察员的案例中,这样做能很好地实现投诉排序自动化。检察院拥有丰富的职业经验,他们在阅读投诉并将之与自己的经验进行比较时,他们有能力认出哪些可能是隐患最重的。检察员日益不足,非法改造日渐增多,311接到的投诉举报数上涨不断,在此情形下,花时间逐一人工检阅投诉成了沉重的挑战。运用过滤系统进行缓急排序的时候我们并未忽略检察员的经验水平。相反,我们是在协助他们,借助自动排序,让检察员们以自动化形式充分应用所积累的只是。他们仍然可以自己去阅读投诉或者按照他们的经验重做缓急排序,我们做得是让他们从智能列表着手工作。
就着这些部门,我们可以说一整天的分析之益。然而各部门真正关心的是结果。市长是投资回报率驱动型市长,预算办公室是投资回报率驱动型办公室,诸行政部领导也都是投资回报率驱动型领导。我们借用他们的时间和数据说要优化他们的服务,就必须确实拿出有所改观的服务,至少要记录下服务的变化水平以了解影响如何。
衡量结果可能会要求我们用新思路来看待衡量标准。建筑部非法改造风险过滤的目标是降低死于火灾或坍塌事故的人数。不过现实中,由于部门工作出色,那些事故极少发生,纵使是庞大复杂、人口稠密如纽约的城市里也很少见,数据集之小时的精确衡量业绩改观变得困难起来。此时,我们要参考结果中的主要指标。
房屋建筑灾难性事故案例中,“撤出指示(vacate orders)”是主要指标。非法改造案例中,不要忘了,我们的建筑检察员出勤去了所有311投诉的地方。他们早晚会找出全部非法改造的情况并纠正问题。我们重排缓急时并没有改变将被发现的非法改造总数。不过,关键的部分其实是“早”的那部分而非“晚”的那部分。非法改造结构、引起火灾隐患的案例中,我们是接报三十天后再去检查还是尽快赶去,对于居民来说是区别明显、影响巨大的。借助排序后的投诉列表加快发现高危的速度缩短了我们对最危险之处做出反应的时间,我们也因此实质上地减短了市民住在危险之中的时日。我们将此算进了火灾风险时长的降低量里。
项目成功后,在我们的下一份管理报告里,建筑部将添加两项以风险及结果为基的衡量指标作为业绩临界指标。在业绩衡量上的这一基础性变化可以直接归因于对本分析项目最终要内容的关注:我们缩短了人们承受死于火灾之风险的时间,而那缩短的时长正是我们在追踪的。
深入观察的惯例化及后续实施
分析小组的最大挑战在于从观察走向行动。深入观察是了不起的,然而受观察领域中不见行动改观,观察便毫无价值。分析师介入领域要尽量不着痕迹,以免介入之事成为域内工作人员的心头之患。
要弄清什么会构成干扰而什么不会,分析小组要牢牢掌握一线人员工作时的操作方式。我们与某一行政部合作开展项目时,我们陪随他们从而了解他们是如何工作的。亲眼目睹与纸上或者会上的描述总是大有不同,因此亲见是很重要的一步。
这之后,我们立即丢弃任何会改变一线工作方式的介入计划。新培训或者新流程是不予考虑的,要高效地实现转向和人员安排在组织上有巨大困难。新方式也不甚可取,因为那样做就算不妨碍也至少会改变员工原来的工作惯常。
我们的理念很简单——尽浅留迹意即解决方案必须从一线上游开始实施。假如我们的任务是重排检查结果的优先次序,我们会将其自动植入检验任务生成系统,这样,任务进入检验的时候就已经被标以优先等级。如果我们找到的解决之道是将原先分立的信息连通起来合为新信息来递送这样的技术性补救,我们会确保新信息是循着目前已知数据来递送的,而非另立门户。此事听来便当,做时却极易出错。切忌改变的时一线流程,切记要改的是产出结果。
聚焦有效项
围绕大数据的传言看似凭空而生,相关结果确实只有通过连年的努力工作才能产出的。与其它种种商事活动、政府流程一样,步骤措施本质上是递增的。
分析法不是魔术,它未必艰深。分析法的真谛是智能,智能即能助我们做出更好决策的优质信息。在我们能够实现自动化的信息收集分析范畴内,比如自动排列出工作顺序上的优先次序这样的事,我们提高所走途径的效率。不过仍不能忘记,我们并不改动途径。
一个有效的分析项目是来去无痕的。让结果来证明项目价值吧。
可学经验
我初入彭博社行政部门是2009年底,那时候我在小隔间里办公,打电话,研究组织图标和数据简图,浏览公开数据以便了解可以获取的内容有哪些,陆续拜访各办公室以求了解时事。直到六个月后我才雇用了自己的首位分析师,他是毕业不久的经济专业学生,连续三年赢得罗迪西里棒球赛(rotisserie baseball),为人十分谦恭有礼。我们一起做了些许项目,虽然没什么产出,但我们学会了如何让了不相关的城市数据相对协调地一齐如我们所愿地运作起来,这是非常宝贵的一课。我着手该项目近一年半后的2011年春,我们得出了首个具有实用价值的观察结果。此后两年,我们成为了行政部与政府合作中的核心成员,负责执行基于分析的全市性系统;该系统的内容包括结构安全保证、紧急状况应对、灾难应对及灾后恢复、经济发展及税收执行。这时我们还在起步阶段。
我们并无必胜信念,且工作绝不简单。泰迪•罗斯福(Teddy Roosevelt)的话来说,我从那天起就定在自己的写字台上了。早期很多时候,我不断读者他的话。
批评家不作数;指出强人是如何出错的人也不作数;指出施事者应在何处改进的人仍不作数。居功的是真正站在舞台上的人,其面容为尘土、汗水和血迹所污;此人奋斗、出错、反复失败,努力从来都是与出错及失败伴生的;此人懂得何谓热忱、何谓献身;此人托命于可敬的事业;然而奋斗的人、懂得热忱与献身的人、投身可敬事业的人,这样的人走到最终,好说会取得巨大成就,歹说假若失败,那也是于勇敢的尝试中失败,其位置与既不知胜利又不识失败的怯懦的魂灵不可同日而语。(罗斯福,1910)
我想要强调的是你必须从某处拙手开始,同时又谨记我们收获的如下教训:
你并不需要大量专业人手。
你并不需要大量高端技术。
你并不需要“完美”数据(不过你确实需要完整的数据集)
你必须有强大的执行支持。
你必须与数据背后的人对话,见他们所见、历他们所历。
你必须专注于为客户产出有实用价值的观察结论,以便他们直接使用、并且尽量不打扰原有后勤链。
除了以上所述,你在提供过优质产品时要不屈不饶,在制造途径上则保持灵活。就纽约市分析项目来说,实干、有创造力的解决问题之人总是受欢迎的,理论空想者则不当去申请加入。最后,你必须时刻记住,这所有的努力都是为了帮助你的城市蓬勃发展、人民安居乐业。始终记得这一点。投身其中,勉力而为。你或许会对自己的发现感到惊喜。
作者介绍
米歇尔•弗拉沃斯(Michael Flowers)是纽约市首席分析官(Chief Analytics Officer)及开放平台办主任(Chief Open Platform Officer)。加入彭博社行政部之前,弗拉沃斯先生是美国参议院110届、111届国会永久调查委员会的顾问,他领导两党共同调查滥用离岸避税天堂的问题,调查美国投资、商业银行及政府部门贷款支撑的债券化市场中的失败,调查北朝鲜政府的欺骗性金融交易。从2005年3月到2006年12月,弗拉沃斯先生在伊拉克巴格达任美国司法部政权犯罪联络办公室(Regime Crimes Liaison)副主任,支持对侯赛因•萨达姆及其统治期间高官的调查及审判。弗拉沃斯先生是费城天普大学法学院毕业的优等生。
参考书目