各位下午好,上午大家聆听了各位专家和国家统计局领导精彩纷呈的演说,现在有很多同志可能有点昏昏欲睡,我尽量说的轻松愉快一点,大家凑合着听吧。
其实所谓大数据,我觉得是许多人愿意把它从量级进行理解,大家都认为,大数据顾名思义这个数据必须要很大才行,大数据从单类别的数据体量足够大以外,有一个很高的要求就是必须用不同类别的数据进行交叉比对分析挖掘,然后从中得到一个深层次的洞察力,其中我觉得从我们的研究来说,就是消费者的这个角度,研究人与人群,人与物,人与品牌,人与物与物之间的各种关联性的挖掘,这才是大数据真正应该有的应用。
我大致把大数据分成五类,第一类就是今天我的专题演讲,政府大数据;第二类是公共机构大数据,公共机构大数据是政府以外的三大运营商水电煤各种慈善机构基金产生的数据;第三类是自然科学大数据,就是指自然运行产生的数据和人类探索自然的科学实践产生的大数据;第四类是企业大数据,其实可以分为两端,第一就是由商业模式的形式到产品的研发、生产、仓储、物流,包括企业本身的人事管理和财务管理过程当中形成的数据,一直到产品和服务进入市场之前,在这之前我们称之为企业内部运营大数据,一旦产品和服务进入了市场,与消费者产生碰撞之后就产生了商业大数据,除了四类数据以外,最底层的就是以人为本的用户大数据,这也是SPD所着重研究的领域。
接下来谈一下政府与公共机构大数据在国内的利用,在中国是一个大政府小社会的格局,我谈的公共机构里面,很多都是隶属于政府的公共机构,比如说三大运营商也好,水电煤也好,他们都是属于政府属下的国企,由国资委管理的,所以其实也是政府的一部分,从政府机构的特点来看,他们的数据源极为丰富,数据类别也极为丰富,但是政府现在无一例外的是,坐拥巨大的数据财富,但是他们的特点是捧着金饭碗在要饭,他们没有把数据很好利用起来,因为在前年年初的时候,也就是2014年年初的时候,杨雄市长发了一个毒誓,将上海24个市委办的数据打通,所以形成了上海大数据交易中心,但是交易的是初级数据,不能再次进行深加工,价值就比原始数据少了很多,从我们从事消费者大数据的研究,大数据,其实不产生任何直接的价值,但是产生巨大的间接价值,从消费者应用的目的来看,无非是两点,一个是尽可能的把价值加以变现,第二是大大的降低各种成本,从而提高运营和资金效率,从目前的消费市场来看,我们目前处于一个消费者诉求快速变化,市场的环境快速变化,以前传统的B2C企业,所有的这些关键管略的制定,从研发到渠道到消费者的满意度其实都是评价企业高管本身对于行业对于产生对于品牌的传统经验和认知来自己拟定所有的策略,但是现在这种拍脑袋的模式越来越不能适应消费者对于个性化、差异化的需求,因此我们必须从众多的数据源里面加以分析、挖掘,把消费者对于产生对于服务的诉求加以精炼,然后从而对各个关键环节加以数据支持,因为只有这样,才能很好地服务于企业,使他们能够尽可能的做到差异化和价值化。
同样的一种方法,也是可以针对政府而言,也是可以引用的,因为政府和公共机构现在目前也存在着能耗大、运营效率低、所有产品资源服务其实价值利用没有得到达到一个非常完整的地步。
在2016年年初,今年年初,我们受上海市消费者权益保护委员会的委托,发布了今年315消费者权益白皮书,我也想就今天利用这个案例和大家做一个分享,就是在我们与消协作为一个公共管理机构,但是很大程度上受制于工商行政管理局,所以我们目前还可以把它认为是一个大半政府部门,这个报告大家可以在互联网上都可以找到,整个项目的背景是他们对于整个过往十年消费者投诉的数据库自己感到无从下手,所以就把我们请去对他们的数据库做一个判断,然后利用这些数据怎么样利用大数据的方法,在今年315白皮书上找出更多的亮点,适应目前市场形势的变化,当时看了以后我们蛮傻眼的,因为第一次会议的时候一位副秘书长和我说了这么一句话,他们自己本身对这个数据只有恨没有爱,这个数据库真是觉得爱不起来,因为上面的问题我觉得就是出现在这上面,第一数据库的结构非常老化,他们的标签的分类可以说连上世纪九十年代的水平都没有达到,他们接投诉的渠道大部分是来自于电话,消费者权益保护涉及个人生活、社会生活的各个领域各个方面,其实覆盖的商品数量、种类非常繁多,大类上就超过了两千类,而且数据量非常巨大,单条投诉数据就超过了三十个字段,我们针对这种情况进行了以下几个处理。
第一,我们对旧有的数据库重新建立了新的标签,针对现在目前已经新兴行业,比如说新能源汽车、月子会所、跨境电商,我们进行了重新的标签细分,重建了他们的标签库。
第二是我们对字段进行了重新分类和挖掘,针对不同类别的投诉内容进行高频词的抓取,进行数据的抓取。
第三我们在这些数据经过整理以后的数据库去跑,然后找出现在目前整个消费投诉和消费市场的新趋势,其实价值点就从这一步开始体现了。
最后是我们对于拿到的所有结果进行解读,最后形成315报告,这个报告大家如果有兴趣可以从微信公众平台或者是从百度搜索得到,大家有兴趣可以读一下。
我们现在详细谈一下,第一步,我们的标签系统的重建,但是可以看看,左边就是消保委旧的商品分类,应该说比较原始的,在我们重建之后,我们针对十个大类进行了重新梳理、重新构建,使得商品品牌符合目前消费市场的状态。之后对于问题的挖掘,消保委原来针对投诉都是全部归结为质量问题,我们这次对不同行业的投诉问题进行了分类,比如说房地产中介行业存在不能按期交房,对于电商来说可能有假货问题,对于新能源汽车来说有这样那样的技术问题,所以我们主要把这些投诉问题重新进行归纳和分类。
其中对于深度挖掘,以前是以文字描述为主,我们是用了很多的新模型和算法,用目前众多电商网站的分类方法对投诉内容进行映射和比对,从中可以挖出很多的新的洞察力和数据结论。
这些我想行业内部对于这些工具比如说贝叶斯、交叉分析工具都比较熟悉,我们用目前主流的算法进行统计分析,我们增加了不同维度的分析,比如说线上线下投诉情况比对,比例是多少,可以细化到某一个类别某一个品牌的线下比例是多少,这样同不同的维度进行比对,就可以看出整个消费者各种投诉的习惯媒体浏览的习惯,这些都可以看得出来,温故而知新,我们从这些历史当中其实也就看到了行业的趋势、产品的趋势、品牌的趋势。
所谓利用大数据挖掘的成果,也就是第一,我们把大量的非结构化数据转变成为一个结构化的数据。第二是把浅表层非常粗浅的分析,做成了深度挖掘。从录入和输出我们都是变成了一个智能化的过程,尽可能地减少人工干预的成分,从而把这个过程当中的不可控因素大大降低和减少,然后把单一数据变成了多层次数据,对数据背后的成因进行了分析进行了比对。
从这个案子来说,我们可以看到第一,政府所掌握的这些数据源真是非常丰富,也是非常可贵的,在接这个项目的时候,政府领导和我们说,你们掌握的这些数据,你们随便拿三五条出来,就可以杀掉这个企业,这些数据非常敏感,在政府数据的应用当中,是怎么样加以重建,怎么样加以分类,在应用过程当中如何平衡数据应用和保护机密保护个人隐私这两方面之间很重要的是求得一个规则,怎么样平衡这两方面不同的利益诉求,不要触及法律底线。
对于政府和公共机构大数据,在应用方面我们只是做了一个初步的探索,而通过初步探索,我们见到了背后巨大的价值和一个对于我们行业来说巨大的利益点。所以我们也是希望政府能够进一步持开放的态度,把他们的数据源头依据一种规则尽可能地对我们的行业,包括所有的行业进行开放,使得大数据能够真正发挥应有的作用。谢谢大家!
|