市场研究协会 会员登录 | 入会申请
  会议交流
会议交流
专题报道
行业活动
  当前位置:网站首页 > 会议交流 > 专题报道 > 开放数据与创新应用 郑磊
开放数据与创新应用 郑磊
发布时间:2016-07-27 07:33:43  访问量:2203

非常高兴今天到交大和大家讲一下开放数据,我是复旦大学研究国际关系和公共事务的,我看到今天几位嘉宾,我在出国留学前主要的工作就是做市场研究相关,主要做市场研究分析市场情报还有进行数据采集,回想一下当时做的主要的方法是定性的方法,开一下访谈,或者发很多问卷,或者买一些报告买一些数据,这些年来我自己的研究数据这块,我们发现现在很多的数据采集不是从样本的采集,而是可以得到全样本的数据,今天我的报告和这个相关,因为我们发现其实我们做市场营销也好,市场情报分析也好,或者说创新也好,大量的数据掌握在政府手中,五月份贵州的数博会说,李总理说80%以上的数据资源掌握在政府手中,数据掌握在政府部门手里是极大的浪费,除非涉及到国家安全商业秘密个人隐私之外,都应向社会开放。具体讲一下什么是开放数据。

目前得到政府的数据用什么的渠道,得到什么样的数据,有些形式是到政府门户网站上,这是武汉市的公开数据网,但是其实开放给我们的不是数据,而是关于数据的报告,中间体现一些数据,但是更多的是一些经过加工过的数据,有些地方包括贵州给我们开放的是一个PDF文件,里面是一个月报,虽然有一个表格,但是以PDF的形式,无法直接导入进行分析或者应用开放。还有一些地方提供单位一条信息查询,除非你自己抓取,无法方便直接得到数据集进行进一步加工和分析,这种形式叫单条数据查询,还有一些地方可能已经把这些数据本身做成了一些图表,柱状图、饼图等等,这也是加工过的,如果想换一种方式做分析,只能给你这个结果,无法知道更多的维度或者是一些变量,你就无法进行深度应用。还有一些已经做成了动态的可视化的图,包括环境数据的开放,即使每小时都在变动,除非自己抓,无法用更方便的可记录的方式直接得到数据,不仅仅是这一刻的数据,而是历史的数据。还有一些地方是先开发成一些应用,比如说上海把公厕的数据开发成一个应用,帮助你寻找身边的厕所,也把政府掌握的停车场的数据开发成一个上海停车的app,但是类似的应用有什么问题呢?其实我们在市民里面问一问,谁听说过这两个app,有没有必要,我们会问你们怎么找厕所找停车场的,他们会用导航软件,为什么还要专门下一个app。其实是一种浪费。即使有必要做,做的怎么样呢?在上海公厕指南里面,数据只有政府掌握的公共厕所,社会上的厕所附近有一个酒店有一个肯德基麦当劳的厕所你不去,你说你抵制它,因为不是政府建的。政府会告诉你我不可能收集社会上的厕所,我把我掌握的厕所做出来就可以了,为什么不能把数据开放出去,让社会开发应用,而不是自己用纳税人的钱做了一个没有必要的东西,把数据本身,停车场的数据你所掌握的停车场的数据,或者政府掌握的公厕数据,只要这些停车场和公厕没有涉及到国家安全、商业机密、个人隐私,让个人开发,用什么方式开发,大众点评也希望把导航功能加进来,让你找到吃饭的时候能够找到停车场,同时帮你找到厕所,这就是市场的声音,交给他们做,这个时候引出了数据开放的概念。

美国有一个RECOVERY网站,告诉你七千亿花在哪里去了,每个点代表这个点上联邦政府投了多少钱进行救市,给了谁,协议上面准备给多少钱等等。也不叫数据开放,你得到的是单点的情况,如果想深入分析一下,到底投入了什么行业真正地方,我要做一个科学研究,没有办法直接导入,只能在网站上基于政府的应用进行查询,你做成可视化的,或者简单的图表写成了一个报道,你自己开发应用,无论是网站的形式还是app的形式,这些都不是数据开放。

什么样的叫数据开放呢?这是一个开放数据上的标杆性的网站,叫做DATA.GOV,分享了很多数据,农业、教育、能源等等,如果做市场研究的人,或者做开发的人,如果你进入消费者数据,下载一个消费者投诉记录数据集,纵向的有五十五万条,这个数据可以做很多,同时可以拿出来做应用,如果发现一些饭店被投诉率很高,发现你进了这个餐厅直接推送,这个餐厅上个礼拜发生了几起安全事故,你自己决定吃还是不吃。

上海目前已经是国内开放数据做的最领先的城市,2012年的时候推出了政府数据服务网,目前为止开放了八个数据集,未来几年会开放到几千个,能开放的开放给社会。比如说点开数据,可以知道目前有哪些数据集,还可以看到哪些数据下载的最多,下载最多的是1978年以来住宅投资和竣工建筑面积,这其实不是大数据,还是一个小数据,有元数据,告诉你数据背景,同时下载表单,同时会更新,这种是数据集,网站上八百个数据集,总量是不是很多,因为开放数据不是很容易的事情,我们逐步在规定。同时在去年大家也听说过,推出了一个比赛,叫开放数据创新应用大赛,我们发现政府的数据像封装在玻璃里的苏打水,看上面悄无声息,但是打开瓶盖可以释放出无穷的能量。到现在去年第一年的时候开放了一个TB的交通数据,这些交通数据开放出去以后,让大家参赛征集方案,最后征集了五百多个交通领域的方案。结果就是五百多个方案当中进行分析,有哪些是商业应用的,导航、规避踩踏事件,帮你寻找一些目的地,或者是进行商业选址等等,有各种各样的创新应用,也有社会的应用,帮助政府做决策,去年的第一名帮助政府做新能源车租赁的布点,当时发现政府在布新能源点的时候,哪里有空布到哪里去,这是一个拍脑袋的自上而下的方式。但是没有人用,就说新能源车没有人租,其实不是,真正想用的地方你恰恰是没有的,帮助政府决策,既有社会政府公共管理公共服务决策方面的应用,同时也会带来市场创新。

今年的大赛,2016年刚刚推出来,去年的主题围绕着城市交通,今天的主题是围绕着城市安全,也开放了更多的数据集,同时抛出来了很多问题,这些问题既有商业问题,也有政府的公共问题,基于数据开展众筹众包,征求点子和创新应用或者决策辅助的应用。

举个例子,这是大赛中开放的公安系统的数据,犯罪统计数据、行政处罚数据等等,派出所的出警数据、道路交通数据等等,食药监方面有一些数据,不良行为数据,餐饮检查数据等等。也希望今年的大赛可以征收更多的方案,今天我的主题是开放数据释放数据能量。

开放数据就是说数据可以被任何人自由利用和再利用,不是把加工过的结果以报告的结果开放出来,而是以数据开放给社会,让社会基于不同的需求进行应用,带来各个层面的数据驱动的商业创新。要以技术和法律的特性解释一下什么是技术的特性,要以可机读的标准格式开放,从而降低数据利用者寻找利用这些数据的门槛,而不是还要自己做几道加工,法律性的开放是在法律上授权,这些数据既然开放了,就可以进行任何形式的商业和非商业的应用。还有一些更细致的指标什么样的数据,完整的一手的,及时的可获取的,这是一个公共的获取平台,而不是和政府关系好才能拿到。非歧视的,不能让企业拼谁有资源。所以这叫非歧视,要以公平的方式,非专属性就是在数据格式上不能一定要有一个软件应用。这是开放数据宪章的原则。默认开放,及时和全面,可获取和利用,数据可比较和关联,为改善治理与公众参与,为包容性发展与创新,BAT可以拿到中小公司也可以拿到数据,这是包容性的。

信息公开到底有什么差距,数据开放在右上角有两个维度,一个是出于保障知情权的目的和保障数据利用权的目的。第二个是开放到信息层和还是数据层,开放到数据层,为了让社会拿去进行利用,这是强调政府掌握的数据社会的和经济的价值。让公众知道政府在做什么,让他们参与和监督,强调的是政治行政责任,我们挣的是纳税人的钱,我们要政务公开,是这样的目的。为了推动大数据产业发展,信息资源的定向再利用,为什么放在中间,我们要把它放在最右边进行利用,因为利用是有限度的,只给A公司,我是甲方找一家公司把数据给你开发一个应用,这是定向再利用,政府在平台上在自己的网站上发布一些结果,提供一些查询,虽然到了数据,但是无法进行再利用,我只知道解决。

开放数据要从知情权走向利用大数据,从政府自己把数据加工成产品,也许是可分析的产品,也许是一些应用,走向政府提供数据,让社会对这些数据进行开发应用,以前都是政府自己做,政府自己把公共厕所做成应用,但是做的好不好,没有想到个性化的需求,如果只把数据放在自己手里,数据到加工的过程你的视角和你的创新你的头脑风暴,你的脑洞总是有限的,数据掌握在自己的手里是收缩的过程,但是如果把数据当成原料开放给社会,产生各种各样的应用,带来无穷的价值,就是一个释放能量的过程。

这个层面上我们要把数据当成一种基础设施来认识,我们在物理的时代基础设施是铁路、通电等等,大数据时代数据是金矿,是基本东西不是奢侈品,是一个基本型的东西,对于政府来说,提供公共数据本身其实是在进行基础设施建设,基于基础设施进行大数据时代的创新应用和开放,产生各种各样的应用,既有商业类的创新,也有社会类的,推动双创,对于行政目标,能够推动合作参与,这个过程当中政府开放数据,社会利用数据是一种合作关系,推动社会发展经过增长,决策的质量和政府本身决策的质量,服务提升商业应用的服务提升,政府自己公共服务的提升,产业转型,政府本身的效能提升,监管效能,其实反过来帮助政府进行食品安全监管。

所以政府开放数据是供给侧,我们供给了数据,然后社会利用数据,共同解决社会的问题,如果创造的价值越多,解决的问题越多,政府越愿意数据,第一次大赛结束之后,交通没想到自己有什么收获,因为是经信委协调,让他们开放就开放,等到决赛的时候,交通委一开展解决了这么多城市交通问题,这才发现对我们是有回报的,可以解决很多问题,政府是提供一种公共产品,不仅仅是开发应用才是公共产品,提供数据本身就是公共产品,在这个过程当中政府自己也是受益者。

政府愿意不愿意开放,以前共享都很难,不要说开放了,现在都说数据是资源,有一个政府的人说,专家不要忽悠数据是石油是金矿了,十年之前要数据很容易,现在要数据都很难,没有人愿意给我,这是一个部门的财富,其实部门利益的视角。

第二个,愿意给了数据之后能不能开放,原则上很容易,但是法规上没有真正讲清楚,到底有没有清单说这是国家机密,我们叫负面清单,我们的法律很模糊这个事情讲不清楚,真正执行的人非常矛盾,法律法规建设要跟上。

能够够不够,需要有一套体制机制保障,谁管这个事情,有没有预算有没有资金,是不是真正理解开放数据,我们公共管理角度要进行部门的体制机制能力建设,这也需要时间。

但是有些部门可能说我干什么做这件事情,多一事不如少一事,我们已经够忙了,为什么做这件事还有风险,多做多错少做少错,动力不足,有没有激励机制,做这件事情是有好处的,其实有一个循环让他们可以感受到,这不仅仅是一个付出。

还有一个问题,数据在哪里,我们都知道政府内部的数据可能和有些企业也是一样,数据掌握在不同条线和层级当中呈现碎片化的数据,政府部门还是这样的形式,找不到数据在哪里,自己内部没有审核,要开放的话,数据碎片化问题,数据资源管理在企业里面已经提出了CDO的概念,有没有把数据当成一种资源和资产真正管理起来,其实各地都还没有。刚才讲的问题归结到三个层面,政策层、管理层、数据层。

开放数据其实是数据的供给侧改革,这两年接触了很多数据的开放利用者,有很多人都是交大的小朋友,我们和他们沟通的时候,他们说没有数据,需求是有的,他们很想玩,但是数据产业要起来,没有数据玩,怎么参与国际竞争,我们的数据被美国人拿去分析了,为什么我们自己不能分析,如果我们自己拿不到数据我们怎么分析,不是没有需求,是没有数据,尤其是没有高价值的数据开放出来,需求端一直都在,所以我们有时候说给资金给政策不如给数据,真正想促进大数据产业发展,下了很多纲要出了很多文件,不如直接给数据,有很多创业团队说,钱有的是,只要有很好的创意有很好的商业模式,同时拿到数据的话,有人追着给我钱,但是政府要把数据给我。最后的结论就是政府的数据去职于民,政府数据是履行行政职能过程当中用纳税人的钱取得和储存的,要取之于民,用之于民。

最后的结论就是我们想真正推动大数据时代,其实要建立在开放数据的基础上。大量价值掌握在政府手中,大数据时代缺一条腿,这件事情政府要率先做,有一个结论是大数据建立在开放数据的基础上。今天就讲这些,谢谢大家!


友情链接
中国信息协会    国家统计局    涉外调查许可证办理    中国数据分析师官网    APRC    ESOMAR    GRBN    
 
CMRA微信公众号   CMRA微信号

关于协会 | 会员专区 | 招聘信息 | 联系我们

地址:北京市东城区东四十条21号北京一商集团大厦308室 电话:010-64087451

Copyright 2015-2024 www.cmra.org.cn All Rights Reserved 技术支持:中才智达

中国信息协会市场研究业分会 版权所有 京ICP备18038404号-4 京ICP备18038404号-5