我进入芝加哥政府管理部门之前,对开放数据知之甚少。当然,我早已对数据和分析有所了解,但是当“开放”被放到这种情境下,我不能单独理解它的含义。事实上,因为我过去是在芝加哥警察局的反恐和情报部门工作,开放数据似乎与其毫无关联。所以当市长Rahm Emanuel的选拔团队找到我,和我讨论升职到芝加哥的开放数据项目时,为了做些适当的准备,我不得不匆忙进行了些网上调查。
在市长竞选期间,Emauel市长在微软公司举行了一个活动,强调了开放政府的重要性,阐述了开放数据在他打造一个更透明的芝加哥的愿景中的核心位置。之后市长请我做芝加哥的第一个首席数据执行官,并且为了实现他的打造一个更透明的政府的愿景,不仅要使数据能对公众开放,也要将数据分析作为介绍政策和提升服务的工具。
新的管理部门在2011年5月16日开始运行,第一天起开放数据就是首要任务。这周前期,政策小组开会讨论了第一个100天的计划,而开放数据被列为了首要目标。我的任务是提取城市现有项目的精髓并且将之作为城市透明提议的基石。我的第一步是评估现在有什么项目,之后决定我将从哪些方面选择“为美国编程”行动在芝加哥的愿景和方向。
在我们进入之后要进行的细节之前,值得一提的是芝加哥是第一个使用“为美国编程”的市政当局。这是对于新的管理部门(透明度)提议重要性的明确且直接的前提。Emanuel市长早已决定他想要一个可以将城市中丰富的数据资源作为工具的团队,而团队的经验将有利于介绍透明度政策。为了达成这个目标,他在办公室中特地设立了一个可以完全关注者方面的高层职位。通过建立“为美国编程”作为这个数据主导的透明政府的代理,Emanuel市长为芝加哥不至于落后其它政府并且成为开放城市数据和政府透明的前沿打下了基础。
芝加哥确实有一些现有的开放数据项目,所以我不用从头开始。新政府之前的开放数据项目是由Danielle DuMerer运营的,他是一个创新和技术部(The department of Innovation and Technology (DoIT))的项目主管。这个城市已经有了Socrata平台并且开始了一些基本数据集项目——特别的是,信息自由法令中的发布日志要求由大众提交,与之相似的还有设施分类和地理数据集。
DuMerer已经充分的将当地的政务公开社区和城市开放数据衔接起来。然而,与其它的竞争议题相比,之前的管理部门没有将开放数据项目作为最主要的目标,甚至即使有了DuMerer的成果,这个项目仍然努力为获得重要提升而奋斗。但是一旦Emanuel的新政府出台了明确的指令要将开放数据优先考虑,这个城市的开放数据项目开始迅速改变了。
在前两周,作为芝加哥首席数据官,我尽了最大努力了解这个我继任项目的前前后后。我发现令人崩溃的是,数据平台已经被选择。然而我感谢SOCRATA平台中“交钥匙工程”的效率,我知道一个私有应用将成为一个长期的金融投资。我也是一个使用开放来源技术的坚定信徒并且很失望我们在支持综合支持网络(一个广泛的开放来源开放数据目录)周围社区方面做得很少。但是因为需要立即交付成果,我并不能处于做出敏锐判断的位置。在这里考虑其它可代替平台是不现实的。
即将付诸使用的还有为芝加哥地铁竞赛设计的应用,这个计划在之前政府执政时期就已经开始了。John D.和CatherineT. MacArthu 基金会为了鼓励商业和软件工程师使用芝加哥城和库克县的开放数据以为市民开发有用的应用资助了三个专题竞赛。我们非常欣赏这种首创的慷慨支持,但是这种竞赛需要一个长期时间来推出我们的项目。
要是只给予符合项目要求的足够关注并且不得罪支持的基金会就会使事情简单,会让我们关注来自新执政部门的理念。然而,我们结束了将此次竞赛看作一个帮助我们在芝加哥实现新的开放数据项目的绝好途径,它帮助我们很快获得动力。(MacArthur一直是个对于这些前瞻思考项目的绝妙支持者)这么快的就在新政府开始执政之后进行芝加哥地铁竞赛应用的开发是与迅速扩张现存开放数据项目的发展策略相吻合的。
我们很快发现了当科技与项目相关,为了迅速地增速这种创新就会被清晰的政策支持。我们在此基础上早早地达到了一些关键里程碑,并以为未来项目奠定了基础而结束。
首先,城市开放了它的犯罪事件数据集。历史上,芝加哥的犯罪数据很难被获取。因为芝加哥过去一直是前端技术的领袖,它的成熟的数据并不容易接触到。芝加哥警察局的清除道路(注释CLEARpath website)网站通过一个映射接口提供了90天的历史事件等级犯罪数据,这是关于信息获取的好的开端。然而,如果第三方想要使用这数据,他们需要做大量的努力。
犯罪数据是有史以来最被需要的数据集之一,而且它经常在很多不同方面太具有限制性:它一般提供的时间间隔太短以致于不能提供除了即时环境感知外的其它任何作用;数据被汇总在一个太分散的分析单位中(像是地区,行政区,或者管辖区);并且(或者)数据并不是可以在机器上阅读的。
芝加哥尝试用快速发展来解决所有问题 。原定的发布寻求开放2001年1月起到现在的所有事件级别的犯罪数据并且每24小时更新数据集。460万数据,芝加哥出版的数据集是在所有公布的事件级别犯罪数据中最大的自动更新数据集。
发布之后的技术并不复杂,但也并不简单。犯罪数据被记载在芝加哥警察局的交换系统并且之后会被复制到他们的数据存储器中。我们方法是从一个内部程序服务器应用一套能将数据从一个地方复制到另一个地方的数据集功能来把警察局数据存储器中的数据提取出来并且通过socrata的api将之下载到城市数据门户网站。
然而,与此同时,需要做几个关键的工作以确保数据是安全的并且能够被提供成可发布的格式。
1)为了保护隐私,地址需要被屏蔽
2)空间坐标也需要被扩散开以帮助隐私保护。
3)需要及时更新并且复制成数据集作为源系统记录被更新。
4)因为犯罪数据集是它们第一批大型数据集中的一个,socrata平台要能够有效地处理上传、下载,和查询。
我们成功的完成了所有这些步骤,在这之间经历了一些挫折,但是整个过程最终问世。在2013年4月,包括几乎520万数据的数据集每天不断被自动下载,并且作为开放数据实施的很好例子开始服务。
这次数据公布给芝加哥的开放数据项目带来了大量关注,大多数是因为关于这次公布的报道。Sophia Tareen,一个美联社的记者报道了这个事件。她写了一篇发人深省的报道,报道了这次发布的重要作用并且注意到了这是芝加哥的明确转折点(Tsreen,2011)。在当地 报道后,这篇文章被通篇刊发在了美国联合通讯社上,并且几个小时后,就成为了一项全球事件。最后,芝加哥的开放数据项目真实了起来并且被更多的人群证实了。我们了解到早先一次高利润数据集的高调发布会带来巨大的收益。我将之视为开放项目的另一个开创性时刻,提供了项目希望达到目的的坚实基础。这次发布在芝加哥非常成功,我猜测它也会在其它管辖区起作用。
第二,这个芝加哥地铁应用 竞赛提供了让芝加哥群众加入的背景 。这个竞赛展示了许多芝加哥人已经对于开放数据感到非常兴奋 并且很想与政府一起开发帮助人们的工具。为了完成后者,我们不得不提供了机器可读格式的数据,并且需要不断将之更新。在重新开放芝加哥数据门户网站之前,数据需要可以被得到,但是通常是以PDF的形式,技术人员知道这种形式能够某种程度上不那么好用。
我们在芝加哥地铁应用 竞赛期间发布的街道清扫数据证实了这一变化。在2011年谷歌主导的开放数据编程马拉松过程中,scott robbin向dumerer和我问及了城市街道清扫数据集。他对开发一个能够在使用者的车辆停放的街道清扫之前的那天晚上通知他们的应用感兴趣。我认为这是个绝妙的想法,因为我个人因为没有及时移车收到了一堆罚单。然而,这个想法实现的过程需要一些城市的数据。城市街道清扫的时刻表有,但是它不以能够被软件工程师或者科技工作者轻易使用的格式存在。街道和卫生局已经采用了Excel电子表格并且使用这种软件格式化工具建立了一个日程表。最终的电子表格之后被印成了PDF格式并且放到了芝加哥城官方网站上。这个表格对逆向工程是不可能的。幸运的是,在类似情况下,重要的是,实习生擅长帮助处理繁琐的将不可用的文件转化成一个可用数据源的工作。我们将生成文件放到了 data.cityofchicago.org。scott从这个网站获取了数据并且设计了一个绝佳的网站 sweeparound.us,帮助了我们许多人记住城市清洁时间表。
sweeparound.us网站的案例证明了一些关键的经验仍然是正确的。首先,我们,作为城市,需要学习生产数据成机器可读的格式作为我们标准商业实践的一部分。第二,许多公众显现出对于政府数据的巨大兴趣,包括城市开发商,调查者和记者。我们看到了在慈善和利益模式方面城市开发商群体的出现。像是芝加哥大学的chapin大厅之类的地方已经为了得到用于调研的行政数据争取了很多年。开放数据项目使其相当程度上更容易了,校方不用在非公开或者其它形式的协定上协商了。开放数据也促进了新的调查项目。一个博士申请生在推特上表达了她对於终于能完成论文的感激之情,更多传统组织在芝加哥城数据公布的基础上在许多多年的研究上有了头绪。
最后的经验是一个tim o‘reilly(2010)提出的:“政府作为平台。”我过去有一段时间不能完全理解这个概念,但是现在这是一个我非常赞同的话。芝加哥的数据公开被用来提供机器可读形式的成熟数据。通过提供一个API到这个数据,任何开发商都能为了任何他们能够想象的目标有机会进入、使用或者结合所有的这些成熟材料。作为芝加哥的首席信息官员和CDO,我的目标是尽量避免阻碍商业应用的开发,相反,我希望促进这个通道的开放来提供多样性和深度。这种策略避免我们陷入保持要求多样编程技巧和持续金融资源的应用的商业中。相反,正如O'Relly提到的,一个以标准为基础的数据通道可以使我们做成平台,并且支持被不同群体培养的创新想法。
成功实施一个开放数据项目
在芝加哥用两年建设一个成功的项目后,我们有许多关键点可以被其它想实施或者拓展开放数据的城市借鉴。
架构
建设一个巨大,有用,机器可读并且意义重大的数据通道是一个非凡的科技任务。首先,毋庸置疑的,是平台的问题。你需要充分思考你的员工的能力,并且需要充足的资金来做决定。这里有些关键点值得参考。
如果你需要一个立杆见影的解决方法(原文turnkey:美国企业界流行的一句话,意思是把顾客所需要的东西“全部”提供给他们,也可以理解为客户在投入资金后立即得到产出。),有几个选项可供参考。Socrata是在这一领域有优势的平台,他们非常擅长他们从事的事情。他们提供了一个随时可以进行的数据通道,对于建立自己的服务器和使用公共资源有所顾虑的组织来说,这是你们最好的选择。然而,正如我们稍后将要提到的,为了有一个可持续使用的开放数据平台,你需要做一些更提前的工作。
平台之后是数据来源的问题。对于仍然处于最基础阶段的项目来说,使用一个立竿见影的方法可以使他们的工作难以置信的简单起来。你的数据也许在一些和电子数据表一样简单的东西上。你可以将这些信息直接导入到Socrata平台并且几秒钟后就可以准备运行了,但是一旦你的项目超越了基础阶段,它也仅仅停留在这个简单形式了。
你有的大多数数据将来自事物(事务(Transaction)是访问并可能更新数据库中各种 数据项的一个程序执行单元(unit)。事务通常由 高级数据库操纵语言或编程语言(如SQL,C++或Java)书写的 用户程序的执行所引起,并用形如 begin transaction和 end transaction语句(或 函数调用)来界定。)或者存储系统,如果你的世界像我的一样,它们中的许多是相当古老并且某种程度上模糊不清的。你需要找到提取数据的方式,理解它的意义,并且将之下载到平台上。这在某种程度上是不如你起先认为的那么立竿见影的。
你同样需要考虑你将移动多少数据和它们将会怎样影响你的组织网络,存储和系统。如果你仅仅处理像工资单一样包含很少数据的东西,这个问题是微不足道的。然而,如果你想要上传一些像你的物产的GPS地理坐标怎么办呢?在芝加哥,一天有将近一千万条路线,这样做将会对运行环境施加很大压力。
可持续性
单独提出这一点看起来可能很奇怪,但是我认为整体设计的可持续性是最重要的问题之一。一个依赖于一个人保持数据更新的开放数据项目基本上是有缺陷的。考虑到开放数据的目标之一是透明性,考虑一个中间人的角色就是至关重要的了。我喜欢开玩笑说人们经常会对我们不在数据进入开放数据通道之前审查他们感到震惊。事实上,几乎没有人呆在市政厅的地下室里在数据流出前检查每行数据。这是通道背后整体设计出色的部分。
百分之九十九的数据自动进入到网站data.cityofchicago.org中。每个数据集都有一个数据抽取、转换、装载的过程连接着源系统,提取数据,恰当的转换它,并且将之上传到平台上。这个过程每天或者一天多次的重复着。在某些情况中,我们会改写整个数据集。在另外的案例中,像是犯罪事件,我们会做一个增加新数据和捕捉已有数据改变的增量更新。这种建构伴随着一系列的要点。
首先,它是可扩展的。在人工更新的基础上有着几百万的数据行是不可能达到的。这既无意义也不会及时。第二,正如之前提到的,它使平台保持客观。最后,它创造了可持续性。这个项目不再是一个单独的个体,而是成为了一个科技机构中有计划性的领域。
畏惧
对于开放数据,存在一种强烈的制度上的畏惧。在一个以“抓到”为噱头的新闻行业文化中,有些事被揭露使某行政部门尴尬是一种共有的担心,并且产生了对该类揭露的阻碍。这通常是不公开数据的原因。我对此的体验强调了这些关键点。
我们已经公开了百万行数据,而截至目前,这个过程非常顺利。每次内部支持者担心一次数据公开,我们都能够平安的推动并且公开这些数据。
与你的开放政府建立一个结实的关系是非常重要的。通过促进这种互动,你能够创造一个“让我们一起将它做成”的共鸣。我解释说,如果我犯的每个错误造成了一个重大事件,这将阻碍我们的整体目标的实现。在芝加哥,政府非常重视这一点。和来自西北大学奈特实验室,之前曾供职于Chicago Tribune的Joe Germuska, 来自Smart Chicago Collaborative的Daniel X. O’Neil合作,我们创造了团队效益。我们通过Twitter、电邮、电话或者meet-up定期开会。这种模式得出的成果特别好,因为我们努力克服了庞大并且复杂的数据集。这些数据集最开始都是很难被完美公开的。
通常,你将会看到政府、新闻界和开放政府团体之间的互动因为我们之前提到的“抓到”概念并不会那么愉快。政府公开的事情中一旦有错误,立即就会变成“重大事件”。也许错误周围有大量的媒体蠢蠢欲动,或者,更糟糕的是,错误会被看作欺骗。在这种情况下,只有两个典型的策略能被政府执行。第一个是不公开任何数据,这种做法绝对不是与我们的目标相符的理想方法。第二个策略是在数据公开前确保其百分百的准确。
当数据少时,百分百准确是可以的。如果你发布了一个有着一百行数据并且没有太多列的数据表,你可以检查每一行来确保数据是准确的。你甚至可以使用许多方法来检查测量数千行数据的运行。然而,当数据集包括数百万行覆盖十年的数据怎么办呢?即使有着编写脚本和审查技术,你也不能百分百自信的确保准确。这种情况让大多数人陷入困境。当你想要发布庞大且重要的数据,而你并不能确保它们的百分百准确时,会导致各种形式的问题,形成一个无法解决的困境。
这就是我们改变芝加哥互动的地方,以便于我们能够使开放数据项目进入高效运行。这使我个人在团体中建构了一系列的关系并且投入时间以确保人们能够理解并且相信我们正在尝试做的事情。长时间以来,一个高等级的政府成员并不会在一个开放政府会议露面来讨论开放数据,但是这反而最终使我们在不同群体之间建立了信任关系。这也帮助了我们在新的机构中签订合同并促进了关系的建构,像是Joe。这些人相信我们的开放数据计划是在建立一个更广阔的的系统而不仅仅是在幻想一个单独的故事。
成为每日活动的一部分
随着开放数据项目在芝加哥成为一个强大并且有用的平台,我们的问题时该怎样将它带上下一层台阶。2013年的开始,市长决定他想要做出一个政策承诺以确保开放数据项目的可持续性。他提议了一个开放数据执行要求(2012-2),要求每个部门都要委任一个开放数据协作员,市里将创造并且保持主要数据员的职位,并且为了实现透明性和可持续性,每年将有人负责开放数据的发布(Emanuel,2013)
这项执行要求的发布和曝光有助于加强项目开始就有的努力工作。要求将保持一个对于在开放数据领域寻求进步的政府的公开疑问。而是提出执行要求或者在主动开始之前立法有意义?还是考虑到一些牵引力并且围绕其建立框架有意义?
我更偏向于后者,但是,明显的是,我的观点存在偏见。我的思想关注于在成为系统的一部分之前反复申说并且在一个孕育环境中发展的能力。开放数据项目将会发展并且在不同的城市以不同的方式成长。芝加哥开放项目的教训也许不会和另一个城市的项目相关。尝试、探索和适应的自主性才有价值并且毋庸置疑的是能够被传递并最终成功的东西。在过度规定它的功能之前创造一个可行的项目是非常重要的。
以最小的代价取得成功
开放数据项目想要取得真正的成功,就要求两个关键点,事实上,这也广泛适用于许多政府主动项目。第一个是执行赞助人清晰直接的支持,无论是对于联邦项目而言的总统,或者,在芝加哥的例子中,是芝加哥的市长。有着市长确切的支持,所有障碍都会消失因为一目了然的,所有正当都将为项目的成功(或者不成功)负责。
第二点是经济支持。政府中没有资金支持的指令事实上并不是真正的指令。市政府有一条共识:“控制是基于预算的。”无论谁掌控了资金,谁就掌控了项目。芝加哥承诺资金(不是一次性大额投资而是持续的投资)和资源的做法确保了这点的成功。在芝加哥的项目中,这点使作为基础的Socrata项目和要求ETL发展的正在进行的工作得到投资。如果没有数据平台和一些使之不断更新的自动操作的方式,它就不会成为一个能够超越个体的真正项目。
然而,我将提到一个不那么引人注意的例子,这个例子使我的第二点不那么可靠,并且,这当然是一种我喜欢的模式:这就是正在蓬勃发展的do-it-yourself商店。在这种模式下,项目是基于CKAN(世界领先的数据开放通道平台——译者注)系统的开放资源运行的。团体可以在平台基础上建立他们自己的开放数据系统。看到他们已经展示了与开放资源软件一起运行的创新性,这也许证明了他们有能力编写自己的ETL模式或者影响一些现在网上已有的优秀开放资源ETL工具的能力。从那里可以看出,这是一个无论什么样的架构都能建构的功能。毋庸置疑的是一个低成本的云解决方法不能被实行。这种存在并不要求大量的安全措施,因为你并不非常担心获取数据。更多的是,你仅仅想要保存它的完整性。
这个不引人注意的例子某种程度上来说很有趣,因为一个人能够想象到和一个强势执行赞助人,一个蓬勃发展的科技工作者一起搭档工作的情境。被提供路径和要求,这对于一个成功进入开放数据空间的首次尝试是非比寻常的便宜的。这是一个我们应该留意并且找到支持方式的领域。
芝加哥是一个展示当不被期待时该怎样建立一个开放数据项目的卓越例子。强势执行赞助人的角色对于项目的成功是非常重要的,并且Emanuel市长扮演了这一角色。与群体建立亲密协作关系和有策略的引起媒介注意也是我们成功的关键部分。通过团队的坚持和不断执行,芝加哥已经能够主动提出我们已经成为开放数据的黄金标准。积累自芝加哥迅速同比增长的我们开放项目的经验将帮助把开放数据的首创精神介绍给下一代,正如开放数据显现的增长和可持续性之于新的模式。
关于作者
Brett Goldstein是芝加哥的前任首席数据和信息官员。2013年,他被第一个授予芝加哥大学哈里斯公共政策学院的研究员荣誉。在他被委任为芝加哥的第一位首席数据官员之前,他创建了芝加哥警局预测分析小组。之前,他用了七年时间在启动世界网上设计了一个在线实时饭店预订服务——OpenTable。Goldstein正在芝加哥伊利诺伊大学进行他犯罪学博士学位的深造。
参考书目:
O’Reilly, Tim. (2010). Government as a Platform. In Open Government. Retrieved from http://ofps.oreilly.com/titles/9780596804350/defining_government_2_0_lessons_learned_.html
Emanuel, Rahm, City of Chicago. (2013). Open Data Executive Order (No. 2012-2). Retrieved from http://www.cityofchicago.org/city/en/narr/foia/open_data_executiveorder.html
Tareen, S. (2011, September 14). Chicago to publish crime stats online. The Washington Times. Retrieved from http://www.washingtontimes.com/news/2011/sep/14/apnewsbreak-chicago-to-publish-crime-stats-online/?page=all