我刚刚从校门口走进来,刚刚好赶上,其实大数据我不是专家,但是最近也一直在研究,研究下来我发现什么问题呢?我发现大数据和哈姆雷特一样,一万个人有一万个哈姆雷特,一百万个人就有一百万个大数据,最近这半年以来,在无数场合听到无数人讲大数据,其实我觉得错了,因为他们讲的我都不认同,但是人是会被改变的,我就被改变了,今天想和大家聊聊这个话题,各位听了一天的演讲,我想聊聊这个话题: 数据大、数据统计和大数据。
第一个问题,到底什么是大数据。我不知道前面的演讲嘉宾有没有回答过这个问题,我是回答不了,因为我看到了无数的版本介绍,什么是大数据,这个问题我回避不了,总归要谈,我们谈谈什么,我只能谈谈陆雷理解的什么是大数据,在这之前我们听听别人怎么说,我找到三个定义。第一个定义,大数据是来自大数据时代这本书的,我就不读了,讲的很高大上,无法在一时间用常规软件工具进行捕捉管理和处理的数据集合,一看就是搞IT的人写的,IT产业界经常搞一些花样,越复杂越好,越复杂越能卖钱,当年我们也是这样干的,最早说数据库,后来数据库不行了,之后我们出现了数据仓库,出现了大数据,概念往往是业界炒出来的,从概念上透过现象看本质,后台到底是什么,一路走来,为什么会出现大数据这个事儿。我们另外了看到了Gartner,Gartner曲线是我们IT界、科技界一个很好的东西,Gartner的模式是大数据是需要新处理模式才能希望具有更高的决策力。麦肯锡说大数据是一种规模大到在获取、存储、管理分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转及多样的数据类型和价值密度低四大特征。
我有自己的观点,我想用几个案例来说明,第一个案例,死亡红点和英国撤军。很简单在伊拉克战争的时候,军方和官方的记录记录了所有的死亡事件的人数和地点,有大量的数据,首先是大量数据,然后维基解密放出来了,有人就做了一张地图,数字是文字,我们图像化可标识化,于是出现了红点地图,把鼠标移到红点上就会告诉你这个地方出过什么事,死过多少人,大家一看触目惊心,原来死了这么多人,于是据说这张地图促成了英国退出伊拉克战争,我要问大家的问题是,这些数据难道原来不存在吗?这些数据原来就是存在的,但是我们做了一件什么事情,这张地图把数据图像化,也就是把复杂的事物变成一个动态的谁都能看得懂的图片,你说它是大数据,原来我是坚决不承认的,今天我变更一下我的观点,我认同这是广义大数据,以后你们听到类似的案例,唯一的特点就是数据足够大,大数据基本条件首先要数据大,没有数据大,谈不上大数据,然而有了数据大就是大数据吗?我不认同。我们称之为广义大数据,就是一个数据大,加上数据图形化。
第二个案例,林彪活捉廖耀湘,我们看过一部电影,描写淮海战役,当时有一个地方叫做胡家窝棚,有一支部队打到那里,打完以后写报告,报告报到总部,林彪看到报告,为什么这里缴获的长枪和短枪比其他地方多,为什么在那里俘虏和击毙的军官和士兵的比例比其他地方高,问完了几个为什么,领导就是厉害,提完了问题自己回答,他说我明白了,这里就是他们的指挥部,于是要求部队全面向这个地方包围,提出要活捉廖耀湘。第一数据大,第二林彪的大脑对数据进行了检索进行了统计,统计出来发现,这个案例在统计范围之外,就拿出来了对此进行了逻辑判断,这是数据统计,为什么林彪同志亲自编了顺口溜,因为当时部队的文化素质不高,不编顺口溜记不住,一编顺口溜就记住了,所有人按照这个特征寻找这个人这是数据分析,把数据特征下发给每个战士,每个战士帮他们做数据检索,然后活捉廖耀湘。这是我们经常看到的案例里讲的第二类,我们用到了大数据技术,在我看来,那不是大数据技术,那是大量数据下的数据统计和分析技术。我们终于靠着大数据的概念,让领导知道数据统计多么重要,这是一个很不容易的事情。
我今天转变一下我的观点,也是广义大数据技术,原来我不认为这叫大数据,今天我们认为这是第二种类型的广义大数据技术,我们在来看案例三。
这是一个经典案例,到处被引用,有人说是假的,我们不管真假,我们来看看,沃尔玛对消费者购物行为分析的时候,男性用户购买婴儿尿布的时候常常会带几瓶啤酒,各位知道为什么吗?男人一般不愿去超市了,什么时候去超市呢?因为老婆生了孩子,在家带孩子,于是就自己去超市了,买了几瓶啤酒,边喝啤酒边看球,沃尔玛通过销售数据的结果倒推了逻辑,大数据是根据逻辑推出结果的,还是根据结果倒推逻辑,很多人不明白这个道理,大数据到底通过结果还是根据逻辑来推出结果,还是结果倒出逻辑,我告诉大家这个案例告诉我们,是先有结果,是我们先发现为什么男人买尿布的时候还会购买啤酒,我们先发现了结果,倒过来发现这个逻辑,你看到一个夫妇结婚了,为什么这个女的爱上了这个男的,你以后才知道,倒过来推理才知道为什么会爱上他,这个项目这个案例开始有点大数据的味道了。然而在陆雷的观点里面还不是狭义大数据,还属于广义大数据,为什么?因为大家已经知道逻辑了,一旦这个事情有了逻辑,那么我们就变成了在数据基础和数据统计分析之后的逻辑推理,因果都知道了,那么就是逻辑推理了。
最后一个案例,这才是真正的大数据,叫做洗车和下雨,这是我的私人案例,为什么总是一洗车就下雨,我们经常发现一洗车就下雨,不洗车不下雨,我个人称之为洗车魔咒,我女儿都知道,她看到我车干干净净,明天就要带雨伞。当我们把这个规律统计为当大部分人洗车,第二天下雨概念很大的时候,我们还要天气预报干什么,我们只给去洗车店调查就行了,但是当中的逻辑是什么,我不知道。我们不知道这当中的逻辑,但是我根据结果,根本这么多人洗车第二天下雨的结果倒推出来洗车和下雨这两件事情一定有联系,什么联系不知道不重要,大数据研究的不是过程,大数据不是研究逻辑的,大数据就是研究前面的因和后面的果。我们做大数据研究的人,只有天才才可以做狭义大数据研究,只有天才才能感受到品位和感受到两个不相干的事件当中可能存在的逻辑,然后先做假设,通过大量的数据进行实证研究,看看有没有关联。所以当我们不知道洗车和下雨有什么逻辑关系,大部分人洗车第二天下雨就成立了,这就是一个大数据研究,今天我告诉大家逻辑是什么,我要破除大数据,变成一个逻辑推理,真相只有一个,为什么我们一洗车就会下雨,我就问你,你什么时候会去洗车,是车脏了的时候才会去洗,为什么车脏,因为很久没下雨了,是不是这个道理,所以逻辑推演为因为很久没下雨了,所以第二天下雨的几率就很大,所以就成立了。所以这又不是大数据了,变成了一个逻辑推理题,真正的大数据是为天才而设的,只有有非常品位的人,有数据敏感的人,为意外发现看起来这两种看起来毫不相关的事情当中存在的逻辑关系,然而他们要做的事情不是研究逻辑,而是关联比例和关联相关,这才是狭义大数据所研究的大数据。以上是我个人观点,仅供参考,未必正确。百家争鸣,有我一家。谢谢!
|