时间不到半个小时,实际上还是比较紧张的。我的演讲主题实际上是关注于大数据价值,前段时间有一本很著名的书,《爆发》,这本书的核心观点是什么呢?当时这本书的中文版出版的时候他们请我写了一个推荐语,我说这是一个令人兴奋的是,也是一个大数据的时代,数据科学让我们越来越多的从数据中观察到人类社会的复杂行为。这本书的核心观点是说人类行为的93%是可预知的,一个人的行为和群体行为完全是不同的一回事情,所以什么是人类,当我的利益受到伤害的时候,领导会拍着我的肩膀说,沈浩你要顾及人类的利益,难道我不是人类吗?所以人类是什么呢?大数据时代,人类说的就是你,指名道姓的你。所以有人说什么是大数据挖掘,我说大数据挖掘就是抓本拉登,只要本拉登敢打电话敢发邮件,人类的导弹就过去了。有同学和我说女的特别爱看韩剧,我说这不用你挖掘,这是自然现象。有的时候和直觉不一样的东西,越有商业价值,今天我们说的就是一个指名道姓的个体,可是我们传统的市场统计是不关心一个个体,我们只关心是不是样本。所以今天我们会发现传统的研究,研究来研究去,最后得出来结论,叫做一方水土养活一方人。为什么呢?是自然因素。经常有人问沈老师是哪人,我说我是上海人,他说上海人怎么可能这么能吃辣,我说谁说上海人不能吃辣,随着商业的变化,我们不仅满足他是哪的人,我们更关心谁是我们的客户,谁是我们的VIP,我们已经进入追求自身利益最大化,但是随着大数据时代的来临,其实我们今天关注的是什么人呢?我们关注的是社会人,所以大数据时代是社会科学研究的春天到了,社会,什么是社会,社会就是研究人的,一个人不是社会,两个人也不是社会,三个人是社会,为什么呢?中国那句老话,叫道生一,一生二,二生三,三生万物,我只要把三个人的关系搞清楚,万物可能就清楚了,如果真的满足这样的道理,那我们现在启动一个软件来看一下,我们怎样表述三生万物的思路,我启动了一个工具,表达这样一种分析的思想。在这个工具里面我们会发现如果有三个人,其中一个人和另外两个人都有关系,那另外两个人之间有没有关系?怎么样来预测呢?我们认为应该存在,当然有同学说不应该也许不是,是还是不是是概率问题,任何决策都是概率问题,所以我们认为应该是是一个概率问题,所以我们做出了不要小看这个模型,这就奠定了我们今天所有社交媒体的基本要素,当你进入谷歌、Facebook、推特、微博、微信的时候,你一进去就会说,你是不是认识这个人,因为获得了你的通讯录,认为你们之间有关系,99%对你都是推荐正确的,也许真的这样推荐,也可以把前女友推荐给了现在女友,这就是概率,在这个里面,我们发现其实如果他喜欢他他也喜欢他的话,其实我没有说喜欢,但是我说喜欢你就会发现这个问题变得复杂了,如果这三个人都喜欢他,都喜欢的时候你会发现,这时候我点击一个算法,这个算法一点击就有分数了,这相当于每人给你投了一票,所以在微博上不要随便关注人,这个数学公式你是懂的,只是有可能你的投票不一定投一样的权重,但是数学公式逻辑是一样的,在这里面我们再一次拷贝一份,这个时候你会发现在这样一个逻辑里面,如果我再存在一个人,如果再拿来一个人,这个时候重新计算分数数据改变了,当然这是正常的,A班的班长,B班的班长一定是最有影响力的,但是谁把A班B班勾搭在一起呢?显然这个人更重要,所以如果从这个视角来讲,我们换一个算法,也许这种算法可能就会得到另外一个不同的视角,这个人实际上就变成主要的,关系就是数据,过去我们的数据都是身高体重亩产量、降雨量,对沈老师讲课的满意度,但是今天咱俩吃顿饭都是数据,因为已经被数据化了,人的社会生活被数据化了,而这种数据可能成为一种关系,无论你在微博上去转发去点赞,哪怕你说了一句话,今天沈老师和忻总在上海吃了顿饭,也表示我和忻雷发生了关系,这种关系是可以捕捉的,如果我在这块现在大家看到,我这里写一句话,对于该小孩是不是谁的孩子,谁正在卸载,我瞎写的一段话,如果我运行这个程序,可以从文本中抽出十几个,抽出谁,这样就把我们两个名字抽出来,想象一下你有没有把红楼梦分析一下,红楼梦每一句话里面,贾宝玉和林黛玉他们去后花园了,是不是发生了一次关系,贾宝玉又是前厅找谁去了,那么整个八十回或者多少回,你发现这个过程他们俩可以建立方程,最后决定谁应该嫁给谁,我们完成可以做到这种分析,你会说沈老师那这样的分析只是模拟的数据,是的,传统的科学研究是我很难拿到数据,我只能模拟,比方说我模拟一个社会现象,比方说我模拟两千个节点的社会现象,两千个节点的社会现象是什么呢?大家应该能理解这个,这是不是就是一棵树,叫做决策树,树有根有分支,树在我们数学计算机科学非常重要,树既也深度也有广度,所以数据的存储实际上搜索引擎也是数,不过你看不清楚,也就是说其实这棵树长什么样,说实话这棵树真的长成了这样,但是你知道是有逻辑关系的,谁是校长,谁是副校长,副校长之间什么关系,是清楚的,但是你不清楚,如果获取了这种关系的数据,其实我很容易就可以搞清楚他们之间的逻辑关系,不过这个逻辑关系计算过程当中,大家会发现一个特点,已经有大数据的味道了,为什么?这是一个两千乘两千的矩阵,对角线下面谁和谁有关系就是一。这个时候既然两千乘两千的矩阵能算,那两万乘两万呢?两亿乘两亿呢?地球是不是就连在一起了,因为在地球上你只要认识一个人,就会认识第二个人,就会认识所有人。假如说这两千个人是你的客户,你该怎么营销他们?这时候要通过计算来获得数据,如果有意删除这些截点,你会发现只要有意攻击网络,网络立刻分崩离析,如果这个网络是艾滋病的传播网络呢?SARS传播网络呢?如果是一个基因结构呢?现在我们拿到了一个数据,这是结构化数据,我们更关心的是这个转发里面到最后,你会发现这里面其实没什么内容,这是雅安地震的时候,红十字会发了微博让大家共同抗击灾害,结果大家都评论让它滚,当时我把评论抓下来想数数有多少个滚,这事很简单,主要是想知道什么人在里面说滚,有没有什么团伙在里面说滚,所以在这个时候拿到这个数据,我们现在要干什么?是不是要把所有的数据拿出来,这是一个表达,通过数学的工具把这些滚拿出来,我们拿到大概93万个数,这些人一起出现了一次,回过头来说,去超市买东西,这些东西一起被购买就是一个购物数据,买书是不是一起买就是购物数据,这是典型的大数据交易,达到这个点以后,其实这个东西我们可以建立一个关联规则,我就不运算了,在这里面关联规格我们立刻知道这个作业本一发,韩红就转,作业本一发冯大家子就转,这就是规格,把规格生成一套机器语言,搜这个买这本书的人就可以推荐什么书,这就是我们建立的个性化推荐规则,这个规则我最想知道93万次传播到底什么途径,这里面我们要建立一个数据流,传统的市场研究或者这个领域大家有没有感觉到,老说大数据挖掘,大数据挖掘到底长什么样,我们已经不看数据了,我们已经走入流的状态,数据流,数据流动到什么程度,数据流到这儿了,所以在这个里面,如果流出来你看不懂,但是我可以立刻启动把数据流从一个工具流出来以后,推送给另外一个数据流,这个数据流就是我们看到的一种,从这块生成的数据就可以只要输出这个数据流,相当于执行了,相当从这个节点开始,数据流流到这儿了,刚才我们说了这个转发当中谁参与转发了呢?这就是我们看到的那些转发的微博,通过这个分析以后,立刻就看到在这个转发人群当中,谁在参与转发呢?其实我们立刻就可以知道一个叫宁财神的人,这是罗永浩,从大道理来讲,在微博上任何人的转发都可以捕捉到,不要随便转发,你转发当中你所处的作用和地位我们都知道,我直接指名道姓地说这些人是什么问题,在这里面我们知道了二方关系、三方关系、四方关系,特别是你会发现在这样的节点当中,那头是左小诅咒,这头是罗永浩,这个网络是联通的,不应该是分裂的,因为刚才我把不加V的人都去掉了,这些人都是加V的,但是都是加V的人我也发现一个问题,罗永浩当时的锤子手机和左小诅咒,其实他们俩早就认识了,谁把他们俩放在一起,不加V的人把两个加V的人勾搭在一起,是我们关注的对象。想象一下这个背景图,如果这是上海市,是不是智慧交通就知道了,城市的智能管理就有了,我们立刻感知到了这个社会,所以今天在大数据领域我们知道社会,我刚才说了,其实大数据很重要的就是解决社会问题,大数据是政府的问题,我们没有理由要求企业开放数据,但是我们要求政府开放数据,在这里面,大数据有四个领域,数据科学、空间地理科学、网络科学、可视化技术。数据科学主要是关于传统结构化数据的挖掘、文本挖掘、语义挖掘、情感挖掘、意见挖掘,还有一个领域就是刚才我说的网络科学,关系可以让你更好地挖掘,而且有一种说法,所有的数据其实都是图,换句话说,所有的数据都是二维表,所有的二维表都是矩阵,现在如何从图的视角看关系,关系的演化,特别是大规模的尺度。另外就是现在的消费者数据可以分成四类,一类是每天走到哪的行踪,是位置数据,还有一类就是每天各种支付行为产生的数据,还有每天在社交网络的心路历程,还有一类就是你到处玩,看电视、看影视剧各种各样的娱乐数据,这些数据一旦聚合,我们所产生的研究随着大数据存储技术、云技术的落实,一切大数据挖掘一切从开源开始,所以我们的技术就伴随着政府开放大数据、以及微软各种各样的统计软件,所以我们看到各种各样的分析,这些都是我曾经说的。
最后我讲到一点,其实在大数据领域,未来的发展,特别是在我们市场和政府这块,政府我们知道我们拥有每个人的轨迹,无论是你ID还是Wifi还是IP地址,最后一定落在一个社会的地理信息区域,在这个区域里,谁落在这个区域内,其实我们完全可以看到整个城市的交通、汽车轨迹、人的轨迹。最后一点,这是我们学校的地图,我点了二十个学生,贡献了位置数据,我设定了一个区域,这个区域可以精确到今天的办公室,我通过算法就可以立刻圈出什么人落在这个区域内,落在这个区域就可以落在任何区域,可以看到任何一个楼宇建筑内,看到二环三环内,等等这些东西就是位置数据,将来的大数据可以做到如果我知道你的社交属性,关系数据,把关系落在你进入了上海,落在了上海交大这栋楼里面,我就知道你的行动轨迹,再加上你的消费属性,这些整合就会活生生重现一个人的大数据社会行为,这种数据会产生智慧足迹,对企业的选址,将来的智慧城市智慧交通物联网都会产生极大的影响。大数据的作用非常大,怎么强调大数据都不为过,沈老师是典型的大数据拥抱者,我们先热情拥抱大数据,我们中国市场研究行业所谓的小数据,我们先热情拥抱大数据,因为只有了解大数据,我们才知道如何保护那些可能产生的隐私问题。
最后总结一句话,大数据时代已经来临,我们生活在这当中,就不得不与数据打交道,数据一定会找到你一定会覆盖我们,大数据时代已经来临,如何从海量数据当中寻找知识揭示社会现象以及可能的商业应用前景都需要我们拥有更好的数据洞察力,其实这句话说实话,我是给大数据时代写的推荐语,这本书非常流行。不过这句话其实我十年前就写好了,我当时写的是数据时代已经来临了,如何从海量的数据当中发现知识,寻找隐藏在数据当中的模式趋势和相关性,以及可能的商业用途,我忘了加大字了,我后来写推荐语的时候,我加了一句话,叫揭示社会现象和社会发展规律,这是大数据来了以后,所带来的大数据对于社会治理,对于社会人的理解,所以美国启动大数据战略,核心问题是反恐,实际上是因为911之后才启动了大数据战略,带动了整个城市和社会治理,带动了商业和商业竞争力,因为有了数据,全球战略和全球竞争有了优势,所以我们传统的市场研究,结合今天的大数据,一定在这一块会大有作为,谢谢大家!
|