作者:Michael Chui, Diana Farrell, Steve Van Kuiken

如今,私营部门和公共部门都开始采用“大数据”和数据分析技术提高产出、促进创新。我们已经发现,在从医疗卫生、工业生产、零售快销到公共管理的各产业部门中,应用数量庞大而种类繁多的实时数据来实现决策优化,有巨大的经济价值潜力。(参见Manyika,2011)

开放数据——政府及其机构将所持有数据免费开放——对最大化大数据效益有重要作用。开放数据让第三方使用公共服务和学术研究中产生的数据,如交通数据和医疗数据,进行产品和服务创新。这既是全球大势所趋:不到两年时间,参与“开放政府合作伙伴”国家政府的数量从初创时的八个增加到现在的五十余个;这也是地方发展前景:无论城镇还是州府的政府机构,包括纽约、芝加哥和波士顿等大城市,都通过开放数据推广项目更灵活地使用他们的数据。

推进开放数据项目的主要动力包括提升决策过程透明度,实现对当选及委任官员问责,以及鼓励公民政治参与。但开放数据的潜力不止如此,人们已经认识到开放数据还可以在政府及管理机构之外创造更大的经济价值。数据不仅可以用来提高现有公司和机构的生产水平,还能激发创业,增加消费者和公民的收益。

麦肯锡咨询公司参与了一项关于开放数据潜在经济影响力的研究,其成果将于2013年秋季发布。在这里,我们将分享其中的基本假设,以及在医疗卫生领域中开放数据的一些案例。(参见《医疗卫生领域中的“大数据革命”》,麦肯锡美国医疗改革和商业科技中心)


定义

定义开放数据将对我们的讨论是很有帮助。在这里我们用四项标准来定义:

·  全体可得:这是关键标准——数据需要对生产或收集数据的组织之外的人可得。

·  机器可读:数据必须可用,这意味着它必须必须采用易于第三方应用程序使用的格式。

·  免费使用:零成本或低成本将有助于开放。

·  不限权使用:不需要签订合约或有其他限制即可使用的数据将最大化创新的潜力。

然而,我们也意识到,这样的“开放性”过于理想化,然而即便不是完全不限权,推广开放数据也可以创造极大的经济价值。例如,美国医疗卫生和救助中心(US Centers for medicare & Medicaid Services, CMS)发布了部分救助申请数据供符合资质的医疗研究者使用,并对数据的使用方式进行了严格规定。但是,向该中心之外的研究者开放显著提升了数据价值。与此类似,关于数据的机器可读水平问题,也有许多不同观点。专有格式的数据是机器可读的,但比不上标准开放格式的数据易于使用,因为后者既不要求获得使用许可,也不会受到个别数据供应商格式升级的影响。同时,虽然严格符合定义的开放数据应是零成本的,部分收取使用费用的数据还是创造了相当大的价值。

“我的数据”的概念也同开放数据定义紧密相连的,即个人或组织开放其持有的关于自身的数据。在美国,“蓝色按钮”项目鼓励医疗服务供应商向病人提供了解自己健康信息的途径。(参见www.bluebuttondata.org)类似的,“绿色按钮”项目则鼓励能源供应商向消费者公开能源使用信息,如智能计费器数据。(参见www.greenbuttondata.org )通过不同的“我的数据”应用程序,信息只向产生这些数据的个人和组织开放,而不是所有人。使用者可以自行选择是否对其他服务供应商开放数据(例如,通过分析能源消耗而提出改建能源利用效率建议的服务。)


为什么是现在?

开放数据运动势头正劲,原因何在?首先,各种组织机构产生和收集的宝贵数据在数量上和多样性上都极大增加:政府事务数据、物理传感数据、交通工具和金融机构收集的第三方规范管理数据等。其次,得益于计算机水平的提高,处理大量即时多线程数据的能力得到了极大提升。如今,一支智能手机都有足够的能力击败象棋大师。

公共机构也对加速开放数据的推广提供了极大助力。在政府内外,尤其是政府外部,决策者都需要越来越具体及时的、有数据和实验支持的信息(例如,通过网络和现实世界中的对照试验来确定人们的实际行为)。此外,政府在各方压力下不仅要向更加透明的方向发展,也要在资金有限的情况下做出更多执政成果。资金缺乏的现状迫使政府追求经济增长和创新,这正可以通过开放数据新商业模式实现。

最后,开放数据的推广也可以带来社会福利: 当更多人可以通过“我的数据”应用来使用自己的数据,而编程人员也可以接入更多的数据库时,开放数据能够推动信息民主化的实现。人们可以用开放数据开发符合他们兴趣的应用,而不是依赖于大型组织机构提供的数据服务。


开放数据如何创造经济价值

目前我们认为,有效利用开放数据可以开发出极大的经济价值。在美国医疗卫生领域,我们发现,通过应用开放数据,如分析疗效显著且价格低廉的处方,每年可以创造超过三千亿美元的价值。此外,仅凭接触数据无法产生价值。医疗卫生领域中,在通过数据创新应用实现大体量疗效对比分析和基因适配处方之前,医疗系统需要进行大量改革。然而,只要改革准备就绪,医疗卫生领域真正的转型就可以产生实际效果。我们相信类似的改变也会在许多其他领域发生。

那么我们发现了哪些创造价值的模式呢?基于我们的大数据研究,开放数据创造经济价值有五种常见途径:

信息透明

我们在许多案例中都发现很多决策缺乏相关数据支持的问题。但仅在恰当的时机为恰当的决策者提供相关数据就已经可以产生巨大影响。例如,许多病人和初级医师并不了解各医院擅长的手术种类以及不同治疗所需费用的差别。当这些数据存在并以可用格式共享时,由此产生的信息透明可以帮助病人和医师做出正确的判断。在对美国医疗卫生系统的调研中,我们估计,确保病人在合适的医疗条件下接受治疗,每年可以产生五百亿到七百亿美元的价值。

揭示变异性,创造实验条件

过程和结果中变异性的揭示过程也同信息透明紧密相关,随后的实验可以识别变异性出现的原因。例如, 开放数据可以揭示不同学校和学区学生成绩提高的影响因素差异。当该信息透明可得时,这样便可以促进教育成果改进。除了展示不同教育成果的差异外,开放数据也可以被用来有目的地设计教育实验并分析实验成果,进而判定何种组织方法或教育方法能够提高学生成绩。

细分人口以采取针对性行动

开放数据还确保个体和组织可以获得最符合需求的产品和服务。在市场营销中有这样一条行话:我们知道一半的市场营销投入是白费力气,但我们不知道究竟时哪一半。开放数据可以帮助市场营销人员获得更多信息来提升投入产出比。例如,屋顶太阳能般生产商可以利用公开的地理图像和天气数据,制定面向有足够屋顶空间和阳光照射的人群的针对性营销。

辅助决策和/或自动决策

开放数据可以扩展已有分析数据的能力,借以提升决策质量或实现自动决策。我们在行为经济学等领域了解到,决策通常受到认知偏见的影响。而我们的大脑也只能处理有限的数据。高级的分析技术可以帮我们客服这些限制。例如,研究者就是通过分析数以万计案例的数据才发现,使用COX2抑制剂(一种消炎药)有诱发心血管疾病的风险。在一些案例中,数据可以被用于即时自动地做出决策。比方说,通过结合嵌入传感器的数据和交通情况的开放数据,人们可以设计一种自动调整信号来疏导交通的系统。

开发新产品、新服务和新商业模式

许多最令人兴奋的开放数据应用来自于现有公司的新产品或全新的商业模式。例如,2012年,有超过200个新医疗卫生开放数据应用被提交至美国健康数据项目平台。创业公司Asthmapolis的应用程序综合了哮喘吸入剂的使用数据和开放的环境数据(如花粉数量和其他致敏原数据),向哮喘病患者提供针对个人的治疗方案。


使创造经济价值成为可能

开放数据推广的成功有多个影响因素,而致力于推动开放数据的群体正通过共享经验与案例来让成功更有可能实现。基于我们正在进行的研究,我们认为成功的开放数据推广行动需要包括如下几个方面。

根据潜在价值对开放数据行动划分优先级

开放数据推广行动经常根据施行的难易程度将发布数据放在行动首位(如,开放最容易获得的数据)。而我们相信,优先级的确定需要考虑到数据创造价值的潜力有多大。例如,公司可以利用为了规范管理和法律合规而收集的数据来对比市场中其他竞争者的表现,这将极大提高公司的经济效益和消费者的经济利益,即便这些数据的开放并没有直接让公共机构获益。当然,我们不可能完全预测开放数据创造价值的所有方式,因此向程序开发者以外的广大群体开放数据仍然非常重要。但在短期内,划定开放优先级的过程中既需要考虑应用难度也需要考虑其创造价值的潜力,这是非常重要的。

创建活跃的开放数据开发者环境

在一定程度上,开放数据是一种“平台”,可以说是第三方开发创新产品和服务的基础。Time O’Reilly 是O’Reilly传媒公司的创始人,他就曾将政府定义为一种“平台”(O’Reilly, 2011)。 若要建设一个成功的平台,一个适合开放数据应用开发者活跃参与的环境就很重要。这需要很多同市场营销紧密相关的手段,包括提高开放数据可得性的知晓度,说服开发者尝试使用开放数据(通过提供折扣或组织比赛等手段),支持他们的实验,甚至鼓励他们转而使用其他开放数据。美国政府支持的Datapaloozas活动正是一个例子,政府召集开发者活动,推销成功案例,提升开放数据相关内容的知名度和关注度,以此来鼓励开发者群体使用开放数据。

建设开放数据的管理框架

一个可升级的可靠数据结构是必须的。在理想情况下,机构内部的数据结构在设计上应该允许在需要时接入外部开放数据。而实现这种理想状况的指导原则就是在建设对内数据平台时按照对外平台的方式来进行。Amazon.com就要求其所有对内IT服务都采用标准程序界面。日后,当网站想要对外开放一个内部新服务时,需要的流程便非常直接了当。

判定恰当的数据发布途径

人们需要谨慎思考发布开放数据的途径。这些决定将极大地影响人们对开放数据的理解和持续应用。你是否用易于第三方开发者使用的开放格式来发布数据?你是否体够了恰当的元数据来指导人们使用?你是否提供了保证人们在数据更新时会得到及时通知的工具?

保护需要保护的数据

有的机构默认自己的数据为“开放数据”。然而,人们通常有理由不开放,或者在一个或者多个维度上(如收费或限用)限制开放某些数据。全面地了解这些限制条件非常重要, 包括安全、安保、隐私、债责、专利和保密性等。

为开放数据社区提供领导

最后,一个成功的开放数据项目需要真正的领导和对开放数据文化的支持承诺。在一些情况下,发布数据的益处可能被经理人预见的危险掩盖,这些人往往将开放数据视为附加工作(例如,和外部相关人员交涉),同时,开放数据也可能让数据信息更容易被误读,甚至揭露公司运营上面的问题。推广行动的领导者们需要由上而下地制定基调, 让开放数据的总体收益值得冒风险投资。更进一步说,领导者们还需要吸引外部的数据消费者群体参与其中,既要逐步了解“数据消费者”,还要对他们所关心的问题和建议做出回应。

尤其对小型市政机构来说,找到投入开放数据推广的资金和人力资源是非常困难的。用构建对外服务界面的方式来构建对内IT 服务界面这样的开放数据结构能够改进机构本身的效率和扩展潜力,这对吸引对开放数据的投资是很好的卖点。 其次,科技创新,例如云技术,正逐步使获得开放数据的必要投资变得更为可行。宏观一点说,利用从开源软件到创新资助和民间软件开发大会,都可以开辟开放数据新潜能。尤为重要的是,机构需要依据通过开放数据创造价值来支持其他优先工作的完成

总体来说,开放数据可以为多个利益相关者创造价值,包括政府自身、即有公司、创业公司和公民个人。理解开放数据价值潜力的范围和规模,尤其是对开放了数据的组织之外的利益相关者来说的价值潜力,以及如何有效地为数据使用者创造适宜的环境,对创造经济价值来说是必要的前提条件。


关于作者

Michael Chui是麦肯锡全球研究院这一商业和经济研究分支机构的主管,他领导了对信息科技和创新在商业、经济和社会上的影响的研究。在加入麦肯锡之前,Michael是印第安纳州博明顿市的第一任首席信息官,还在这里创立了一个互联网服务供应公司。目前,他居住在加州旧金山。

Diana Farrell是麦肯锡公司公共部门业务的主管,同时也是麦肯锡政府研究中心的全球领导和创建者之一。在担任全国经济委员会执行主任和奥巴马主席经济政策执行助理两年后,她于2011年加入了麦肯锡公司。现在,她住在华盛顿特区。

Steve Van Kuiken是麦肯锡商业科技办公室主任,负责麦肯锡医疗卫生信息技术的相关工作,为许多正在设计或执行新技术策略的医疗卫生机构提供服务,包括服务购买和提供双方、药房和医疗产品公司,和医疗产业中的信息技术服务公司。他现在在麦肯锡的新泽西办公室工作。

作者们也希望向同事麦肯锡新泽西分部的主管Peter Groves表示感谢,感谢他为完成本文提供的帮助。