前面几场报告,沈教授是高校出来的,其他几位大多数都是行业内的研究者,行业的领导人,他们具有企业家精神,他们共同的特点如果用数据说话,他们风流倜傥,PPT做的非常漂亮,而且演讲能力非常强。
我要分享的观点和理念PPT里面都有了,互联网与信息化与城市大数据的出现与分享提供了便利性。第二个就是政府和企业的数据越来越开放,中国拥有全球最大的互联网用户,同时中国政府在互联网行业的发展过程当中管控比较少,所以互联网产业的相对开放,也为数据获取提供了便利,可以说大数据为城市的研究和利用提供了无限的可能性,我们是高校的学者,我们的研究目标不是为了钱,前面很多讲的都是商业价值,我们的目标是要解答中国故事,说明中国故事背后的一些特征。所以在这种情况下,我们的团队和我们高校学者非常愿意改变我们以往固化的科研组织,要重新组织科研,这种组织科研的范式跨学科、跨院校,产学研和政府结合,因为中国的故事特别精彩,中国用了三四十年经历了人家几百年的历史,在西方十年二十年没什么变化,在中国每天都有变化,学者要记录这些故事,这也是今天希望站在这里和大家分享,我们乐得融合不仅必要,而且必须。刚才非常赞同沈教授的说法,我是经济学出身的,我们的研究是把经济的理性人还原成社会人,人和人不一样,我们用社会人的角度重新把经济学高大上的研究落地,但是经济学也有特长,前面的演讲者也说了,经济学做什么,不仅要回答是什么,还要回答背后的故事和机制,要回答原因,我今天的汇报结合我们的研究来告诉大家什么是数据,我们说大数据,什么是数据,以及我们利用这个数据做了哪些有趣的研究,以及我们怎么来改变科研生态来和业界做互动,这是我想给大家交流与分享的。我讲三个方面,第一个方面是是什么,介绍几类城市数据,对于大数据我也打个引号。第二个如何用,如何利用城市大数据进行应用。以及怎么用,怎么开发平台。
我们把中国的高铁站点用网络爬虫的方式爬了出来,这是我们做的一个空间地图,有每日早中晚高铁的客流量数据,这个数据必须爬,如果不爬,时过境迁,这些数据就没了,看看铁路对于城市发展的影响,我们都想做这个研究,问题是铁路提速的数据没有跟踪过,如果过了这个村就没这个店了,没有这个数据我们怎么做研究,我们做了这么一个研究,用几十台服务器跑这个数据,有什么商业价值,大家可以做一些评价,我们做了一些研究,把大众点评网的数据,一些社会网络媒体的数据做了一些整合,我们采取了网络爬虫的方式,我们做了什么样的研究,我想看看所谓淘宝网,所谓的一些商业网站出售产品,有的企业很关注我们购买每个产品,下面都有一个笑脸和哭脸,但是问题是笑脸和哭脸是什么因素的影响,我们想做的研究是消费情绪的研究,我们想发现这么一个规律,是不是打雷下雨的天气,消费者给产品的好评率就会差一些,我们想把这个点解答出来,进而我们通过数据爬虫的方式,我们做这么一项研究,这项研究比较有趣,现在百度阿里研究院也有一些数据,我们也有合作。政府手上的数据,前面很多领导都提到了,政府手上的数据可能比较多,虽然有可能杂乱无章,但是数据真的是很大很大,西方的学者西方的政府也认识到,发达国家09年开始陆续把大数据把政府的数据公开,提高到国家战略层面。美国医疗因为数据开放,节省了美国政府三千亿美元。中国政府多次在两会上提出数据的开放,刚才有老师提到了上海有一个上海数据政府服务网,从2016年6月份上线了,2015年的时候有一些数据拿出来通过竞赛的方式来让公众获取,这些数据都很大。今天上午没有参加报告,原因是我和国家住建委和上海住建委还有联合国人居署在谈上海手册的修编,其中有一个话题是这些数据怎么共享,这些数据在谁手上,经上海经信委、交通委、住建委,这些数据在他们手上,希望和他们合作,在高校成立一个研究机构,另外政府的数据要开放,政府控制的企业数据我们也获取了一些,我们用某移动通讯运营商半年的数据做研究,数据包括1860万的手机用户,根据这个数据把上海周边城区划出来,用大的数据进行划分,我们还用手机数据,把上海居民工作地的分布和就业岗位的分布有两张图画出来,今天城市经济学、区域经济学里面最重要的就是通勤的数据,就业通勤的数据,在中国不提供,在西方是有的,西方根据通勤就业的数据可以划出大都市区,我们的团队致力于划分中国的大都市区,缺的术语是通勤就业数据,我们现在只能碎片化的获取一些信息,能不能获得上海市的地铁数据,我们可以看到2015年各个城市地铁日均客流量的排行,上海的地铁平均每天956.9万人次乘坐,我们划出来上海各个空间载体之间的联系,除了以上的数据之外,我们还做了一些什么数据,我们有遥感数据,空间遥感数据,这张图是断点土地应用数据,这个数据我们做的更强,上海市每块地的土地性质我们都有,根据遥感的数据可以获得进一步的信息。还有一些数据我们身在这个时代,有很多数据可以免费公开获得的,比如说美国国家的国家地球中心,提供了夜间灯光数据,夜间灯光数据每天都有,我们不需要通过爬虫,通过服务器及时跟踪把数据下载,是这么一个数据,用夜间灯光数据做全球经济分布图,这是经济学者普遍采用的方法,还有一个方法是网格数据,城市网格数据,网格点一公里乘一公里,平均把上海空间网格化,一公里乘一公里的网格,这个数据很好,但是这个数据是收费的,他们也没有办法及时话,还有其他的数据,气象的数据,环境的数据,这个数据可以获得每日所谓的气候日照、气温、风向、湿度,这些数据都有。刚才举了一个例子,商圈,我们网上购物满意度,气候的数据从何而来,从这些数据里面获取。
上面有点像大数据,但是我个人认为所谓的大数据并不是对传统数据的替代,传统数据从趋势上来看有道理有趋势性,我们的团队一直做中国的城市数据,主要来源是手上掌控的掌握的购买的近十年以来,中国两百个地级以上城市的统计文件统计公告,这是我们花了很多的精力,把数据Excel化,还有一套数据是近代城市的数据,这个数据是我们和复旦大学合作,我们有1840年到1949年中国的海关数据,在哈佛图书出版了一套海关数据,数据不仅记录了进出口数据,还记录了海关所在城市的社会属性数据,这个数据有173卷,包括历年的数据,包括进口数据和出口数据,这套海关数据,甚至比当代中国海关公布的数据还要全还要完整还要科学,这些东西对于我们学者来说就是宝库,这些数据我个人觉得非常漂亮,针对这些数据我们做什么研究,我举两个例子,一个例子是城市的研究,另外一个是城市的组合城市群的研究,我们怎么用数据回答是什么,同时用数据回答为什么是这样,分析背后的机制。
第一个案例是团队正在做的研究,城市收缩研究,中国改革开放以来,城市化进程伴随着大量的农民工,大量的农民向市民转移,这是人口的城市化,对于土地城市化来讲,城市空间在蔓延,城市越来越大,这是从整体上来看,如果从结构上来看,在中国这些越来越大的城市,并不是全国都有的,也就是说在中国有一些城市如果用数据说话,这个城市的规模是在下降的,下降的城市在什么地方呢?我们可以给大家看看,我们用了一个指标,叫做2000年和2010年中国两次人口普查的数据,观察中国地级市和县市区的人口下降问题,在中国如果用数据说话,在中国287个地级市当中,有收缩的城市,人口在持续下降的城市,我们把它分为城市全市人口下降,还有一类叫市辖区人口下降,市辖区反映了城市的生产活力和消费活力,整个城市来讲,包括城市和农村,我们发现整个全市在下降,并且市辖区也在下降,这样的城市有四个,占总观察样本的9%,还有一类数据就是城市总人口下降,但是市辖区不下降的,人口不下降的城市有58个,占到了21.72%,我们的三千个观察样本里面,有397个城市人在下降的,很多地方政府作为区域发展规划最重要的基石是做增长性规划,假设人口是越来越大的,但是如果用数据说话的话我们会发现在中国会出现这样一种情况,这种情况的原因或者说进一步分析,我们可以看到主要下降在什么地方,在中国主要下降在东北,东北我们可以理解,最近我们讲所谓的东北衰败,还有一块在长江经济带,长江经济带,今天作为国家发展战略之一的长江经济带,过去十年人口持续下降,这些数据的下降,刚才讲的地级市还有县市区,如果从街道上看,北京的教授做的研究,在39000个乡镇街道里面,有19000多个乡镇人口密度是在下降的,占全国总面积的三分之一,这种现象中国的快速城市化大家都知道,我们也把城市人口变化,地级市的人口变化进行了分类,哪些城市是下降的,下降的是中心城区下降,还是郊区下降,我们也做了一些分类,具体的一些城市,比如说我们以重庆成都为例,把成都都市圈的数据拿出来,这里面也有规律,成都市以东的地区大部分人口是下降的,这是为什么呢?做了一些社会调查,这是我们的工作。收缩城市和非收缩城市有没有商业开发的价值,挺好玩的,我们发现收缩城市商品房的价格和突然出让价格是远远低于非收缩城市的,也就是说收缩的城市如果没有这个数据我们也能发现,收缩的城市房价和土地出让价格会低一点,是一种巧合还是一种规律,我们可以做进一步展示。有了这些研究之后,我们就可以做很好的研究,比如说我们要收缩城市和非收缩城市研究,我们把城市基尼系数算了出来,基尼系数并不是年鉴会提高,我们算出来这篇文章会发表在中国社会科学上面,收缩城市是我们观察到的一个现象,收缩城市的原因是什么,有哪些因素会引起收缩城市,我们做了因素选择,包括全球化、产业结构、发展水平、政府支出、城市发展水平,我们做到了五类模型,第一产业比较高的比重比较高的城市收缩越严重二三产业发展速度比较快的,城市收缩就比较弱,还有其他的规律,我们用数据说话,来做实证检验,就会发现一些可证实和可证伪的一些研究结果。
前面讲到了城市的研究,团队做的另外一个研究是城市群和大都市圈的研究,为什么做这样的研究,因为在中国什么是城市没有讲清楚,什么叫城市群,什么叫都市区,什么改经济带,什么叫都市连绵带,什么叫城市区域,这样的概念没有人讲清楚,这样的概念不需要交给政府讲,也不需要交给行业领导者讲,这是我们学者的工作我们来讲,我们的学者工作要求给概念定标准,这是最好的研究,我们要给出中国的概念和中国的标准,下面一个工作是中国学者的工作应该结合中国的故事给概念定标准,在中国有没有可能出现一个巨型城市区域,在西方不可想象,在中国为什么可以,因为有高铁,我们做了两个工作,给政府规划出来的城市群做了评估,做了后评估,我们都知道从进入本世纪以来,中国政府规划了很多城市群,比如说最近出来的是长三角城市群规划,以前还有很多城市群,都是国字头的,这些是发改委规划出来的,政府规划出来的城市群,能不能促进当地经济的发展。我们对政府规划出来的城市群做了研究,我们发现凡是政府规划出来的城市群,我们用了2006年到2013年的疏浚,做了一个检验,发现政府规划出来的城市群加入不加入没有差异,效果没有显现出来,不仅对经济增长是这样,而且对劳动力的聚集投资的规模客运量公司的议价人口的规模也没有影响,结果非常明显,城市加入不加入城市群,加入前和加入后对城市的发展没影响。在长三角地区,我们把长三角地区比喻成为富可敌国,狭义的长三角两省一市,2015年的净增长2.1万亿美元,如果把安徽加进来,长三角地区是2.6万亿美元,这是什么概念,如果做一个独立的经济体和俄罗斯和印度经济总量相当,在全球排在第十名和第十一名,经济总量接近于之前亚洲四小龙的经济总量之和。为什么长三角可以,因为长三角有完善的区域合作体系,我们的长三角的规划,我们的长三角政府与市场的关系是什么关系呢?是政府引导市场主导,我们长三角的狭义的长三角,市长联席会议,在不同的年份分别加入不的城市,今天我们的市长联席会议有三十个城市,你这个城市加入不加入长三角,不是中央规划的,而是你有这个实力,你先成为观察员,后面我们吸纳,这是政府在引导,但是政府绝对不主导。市场在资源配置中起决定性作用最强的区域,这个城市加入不加入长三角城市群有影响吗?这个城市加入了长三角城市群,对于当地的发展有显著的作用,为什么在长三角地区区域发展会有一些影响呢?我们做了一个空间计量模型检验,以往的空间计量模型只能发现你这个地方有没有影响,是正的还是负的,这是传统的空间计量模型可以告诉我们的,长三角为什么有影响,因为大家知道长三角地区是富人俱乐部,上海的发展并不是以周边地区不发展为代价的,与此相对应,京津冀地区,北京的发展是以周边区域相对不发展为代价的,为什么现在要求协同,不是因为协同做的好,还是因为协同做的不好。长三角为什么做的好,我们做了一个检验,我们做了一个实证模型,我们发现上海对南京的影响和南京对上海的影响是什么关系,我们把长三角135个县市区,每两两城市之间的相互影响做了出来,这在计量经济学里面都是属于前沿的,我们讲结论,长三角地区的经济发展的溢出概念大家可以理解,怎么样捕捉这个溢出,我告诉大家一个方面长三角地区空间溢出总溢出实力最强的区域,上海不仅经济实力强,而且上海对周边134个县市区的溢出合是最大的,无锡、江阴等等等等,长三角为什么经济发展实力比较强,加入长三角比没有加入长三角要好呢?因为长三角区域里面有非常好看的溢出,我们的经济实力比较强的地区,不仅我们实力强,而且我们溢出效应比较大,溢出效应后四名是这些县,经济实力比较弱,同时总的溢出效应比较弱,不足轻重,同样的模型可以用来分析京津冀,这个模型看上去空间尺度比较大,但是这个尺度同样可以做到城市内部的商圈,城市内部的房价,溢出效应是什么样的,通过数学建模的方式,可以给大家相对数据背后的原因,这是我们的这几个研究。
如果用地图呈现的话,总溢出效应比较大的,南京、长江经济带、上海、宁波,和我们的判断是一致的,所以长三角为什么这么强是有道理的。
前面我们讲了城市群的研究,为什么国子头国家规划出来的城市群效应不明显,因为规划出来的城市群是行政命令来的,不是按照市场规律来的,你告诉我什么是市场规律给出的城市群,在中国如果按照市场规律来看,中国的城市群到底有多少个,因而我们团队做的工作,重新来划分中国的城市群。
我们的划分方法我们要建立一个城市区域空间理论突破,我们要建立一个维度,建立一个市辖区、城市、都市区、城市群、城市区域的分析框架,在这个框架里面研究城市的问题,像上海这样的城市,上海本身就是一个城市群,我们要把上海和周边的城市连为一体,突破行政边界,我们要划分大都市统计区最重要的原因,我们要重新通过经济的规律走出城市与城市之间的经济边界。这个划分要交给学者,我们用大数据的方法,用灯光数据和遥感数据来划分地理边界,用投入产出表和高铁客运量划分经济边界,在美国在加拿大在东亚的日本都是有大都市统计区的划分,在中国未来一定用大都市统计区做研究,我们的研究应该比国家统计局的研究更早一些,甚至研究做的好被业界采纳,将来可能就是国家统计局的标本。
实际上这个研究已经完成了,上面介绍了一下我们团队正在做的两项研究工作,这两项工作也是十年以来我们的工作,将来怎么做,我作为一个经济学者,虽然认为我们的经济学者战无不胜,我还是有这个信息,通过不同学科交流发现我们经济学讲规律讲故事讲机制,但是我们仍然需要社会学地理学GIS、城市规划、计算机科学以及历史学的交叉,这个交叉不是我们要交叉,而是类似域的研究,必须打破学科边界,应该以问题为导向,今天大数据为这样的研究提供了可能性,在学者在高校里面是不是就是一潭死水,我们的团队在2014年成立了一个实验室,叫做中国城市与区域实验室,这个实验室不属于任何科研组织,是一个众筹众包的平台,这个平台基于共同兴趣爱好享受知识溢出的平台,也不是以盈利为目标的,我们有一些众包会议,大概每年七八次会议,我们的最终的众筹的项目给大家说一下,第一个项目最大的学术理想做中国的百城调研,这个数据用宏观数据调研数据和地理数据相结合,和前面一位演讲者的类似,因为这是经典的问题,这就是一个企业区位选址的问题,宏观数据我们有了,地理数据我们做的最好,和我们合作团队做的工作,给某银行二手房定价进行评估,上海的银行每年给团队两千万做而二手房定价,我们的定价价格比任何商业机构所谓的咨询公司给的更加准确,因为我们有每一个板块每个点三十米乘三十米的交通数据医疗设施的数据,所谓的教育的数据和商圈的数据,而且我们有学生的资源,我们入户调查,我们和房地产开发商有合作,我们能够每个楼层每个房间的数据,这种数据的结合非常普遍,而且也很有道理,用手机数据和居民出行数据进行了匹配,我们调查的数据和手机数据匹配,但是我要告诉大家,可能有业界做调研,但是我告诉大家调研是一门学问是一门科学,为了实现这个想法,我在密歇根大学做了一年多的访学,学习调研,社会调查是一门学问,做的好的就是北大的团队,西南财大的团队,还有人大的团队,我们做的调研是众筹众包的方式,有了这些数据以后做城市健康诊断,为一百个城市量身定做你这个城市到底健康不健康,是处于健康状态还是亚健康状态,用数据说话。这是我们做的一些研究,用众筹的方式选择最合适的人做最合适的研究,这个事业大家一起做,通过众筹众包的方式。最近在做的工作,在上海成立了上海大数据社会科学应用研究会,这是真正大数据用到社会科学里面来。
我觉得的我们在大数据时代,我们的学者做什么研究,做可证实和可证伪的研究。我们要从经济学上的经济人和理性人真正走向社会人,我们要研究单个人,同时我们要做大数据时代的好的研究者好的组织者好的传播者。我们只是一个研究者,我们是一个组织者我们是一个传播者,后面可能也会有智库的方式从事研究,我们的盈利靠社会捐赠,靠众筹,并不是完全依赖商业开发,最终的工作是做中国城市空间实验场的历史记录者,在这个时代必须有一部分人静下心来非盈利性的做公共服务,当我们这个平台建立起来之后,可以免费给商圈用这些数据,用了数据之后会取得更好的成果。耽误了大家很多的时间,谢谢!
|