大家早上好,非常高兴时隔两年重聚医药决策峰会,这是我第三次参加这个会议,前两此次我分享的内容跟大数据也是有关系的,前两次是分享的是非结构化数据的挖掘。这回我给大家带来的更多的是结构化,基于CRM数据的一个数据挖掘的case。我们开始分享。
首先,这次大会,有很多的讲者都谈到了一个变化,我们看到在过去的几年里整个医药营销的模式发生了很大改变,从片子中左边的传统营销组合到右边的可以称为新型营销生态系统。这里微博、微信之前的讲者也都提到了。现在越来越多的公司上了CRM系统,我们之前也做了调查,几乎所有的MNC药厂都使用了CRM这个工具。整个行业来说,作为行业的从业人员,我们已经认识到这些变化,在另外的一端,在研究公司,比如HCR公司,传统的市场调研业务正在和CRM,social
media, 电商数据,网站和APP数据等融合,形成大小数据结合应用为客户提供整合的洞察服务。
在我们公司这边,这几年也做了一些大数据相关的项目,我有两个简单的例子,这个例子是一个电信运营商的Case,这是客户流失预警模型的搭建,当时是给移动做的Case,方法是通过分析离网的客户他在过去的一段时间的行为特点,建立机器模型,然后回推到全网的用户,如果这个用户有可能要离网的可能,系统就弹出一个flag。然后由移动进行保护保留的一些手段,比如说我送他一些流量,送他一些服务等等。
另外一个,这个是个人护理公司,当时CRM的会员数据,我们把客户分成了不同的类型,比如说忠诚的,年轻的,关注精华的,关注基础护理的,还有低价值的等等。可以看到不同的客户对产品的关注度是不一样的,比如说关注精华的客户更关注眼部护理,基础护理的客户更多的是化妆水,洁面,乳液。通过把客户的需求进行划分,可以帮助这家公司更好的设计CRM推广计划,EDM,帮助他推送合适的客户关心的相关的产品促销信息。
我们都在说大数据,建模,很高大上的感觉,那到底有哪些实际上一些具体的工具呢,或者是分析方法呢?我们看到,我们也列了一些,在大数据团队经常会用到的研究方法,可能有一些对市场研究的同仁来说,可能觉得很熟悉,但是有些可能比较陌生。比如说神经元网络,昨天刘杰作分享也提到了他们做的一个模型就是基于的神经元网络,它的应用比如客户保留,目标市场分析,还有是防欺诈的分析。决策树是非常好的工具,可以帮助我们了解一个决策是怎么制定出来的。包括关联分析,刚才看到的个人的那个Case是用的关联分析的工具,更多的是对产品组合,交叉销售这些比较好。聚类分析大家都比较熟悉就不赘述了,还有序列分析,机器学习,机器学习是很广义的方法,我们非结构化的这些数据,比如说我们可以用机器学习把海量的非结构化的文本进行归类,通过机器学习找出其中的重要信息。
基于之前在其他行业的大数据案例,我们医疗团队也慢慢摸索和建立了适合医药客户的挖掘框架。我们数据挖掘模型-Physician
360是基于CRM数据和额外的数据源进行数据挖掘的模型,这个模型简单来讲是这样,这个模型是一个因和果的模型,商业洞察无非是我们来试图解释造成结果的原因。这个模型可以帮助我们去衡量因果的关系。我们看一下这个模型。左边是原因的变量,所有这些变量是基于具体的医生即医药公司的客户,这边有一系列的原因的变量。右边其实是跟我们的业务相关的,比如第一条-我们客户mindset的改变,还有就是真金白银的处方行为的改变。我们来具体看一下左边这些因变量都包括哪些--医生和客户他对于公司和对于产品是什么样的,他对病人的分类是什么样的,对疾病的认知和治疗态度,还有他的性格是什么样的,他愿意不愿意接受更多的拜访。还有医药公司对他进行的推广活动,还有他更认可哪些专家,他使用品牌的情况是什么样的,他对哪些产品attribute更加关注等等。
这里举一个例子,这个医生比如说对某个公司态度是一般的,他遇到某类病人可能会转诊,担心药占比过高,不愿意积极治疗。她的性格内向,拜访太多觉得会被打扰了,不喜欢周末时间被联系,她喜欢用微信,喜欢浏览丁香园,她喜欢视频会议,近期要升副高需要一些写文章的支持,比如说她更认可什么样的专家,他对于一些推广的评价,她的病人的情况,病人量,大多数是什么样的病人,对于药品的使用,首选是什么样的,更看重什么方面。大家可以看到光是原因变量就可以给我们提供很多insights,比如说他需要改善公司和产品的关系,比如说需要扭转她对目标疾病的看法,比如说服这个疾病对于她的主要治疗疾病是有帮助的。似乎对于这个医生来说不需要更多的医药代表的拜访,可能更好的方法是通过线上的方式,等等等等。
好的,下面我们看一下我们做的这个实际的项目,这次研究我们是基于12万条的拜访。还有2万多个会议,包括一些一万多条Survey数据,来自于近9000个医生。我刚才我们看到了360的模式,但是我们到现在为止,数据还不能支持360度的分析,在这次研究,分享的case也是有一定的迭代。可以看到,比较多的数据是蓝色的,其它的需要我们以后逐步迭代来形成。
这是这个项目的分析维度覆盖了销售团队,促销组合,客户分析,因果模型等。由于今天的时间有限,后面的分享也是从中找了几个分析和大家进行分想。这一页的分析,左下角的图,如果我们把客户分成高处方组,中处方组,低处方组,然后横坐标是拜访次数,随着拜访数量的增加,高处方组的数量也在增加。但并不是永远的增加,只是增加到这一个点就平滑了,这也给我们一个提示,就是说对于高处方组的拜访的次数到底是多少。这个研究在十年前刚刚入行也试图做过,当时我在一个名字非常霸气的公司工作,这个公司叫ISIS
Research,想不到十几年后ISIS这个名字会变得这么有名。当时我们想通过survey数据来做这个事情,当时tracker的样本量也比较大,我们试图做这种分析的时候,还是非常捉襟见肘,因为把这些频次排列出来还是只有很少的医生样本,如今如果放在近9千个医生,12万次拜访的数量上面,分析的准确度会做的非常非常好。
如果我们来看病人量的多少,如果我们分不同病人量客户分组来看,也有一些比较有趣的发现,就是对于病人量多的,这个最佳拜访次数也会比较高的,因为病人很多,所以很多厂家都找这个医生。这边的医生(病人量少)可能不需要找他很多次。这是基于目前的数据做的分析,客户公司对于不同的客户分级也有不同的要求,客户分级简单的说,就是高、中、低,肯定是A1病人多,处方也高,我们分析这12多万条的数据,发现对于A类的客户有一个每个月最少的拜访次数,这个实际的次数不能达到他的要求的次数,他要求的次数和之前我们得出来的次数还是有一些差距的,我们通过分析得出来的次数还要高一些。由于数据保密的原因具体的次数我无法分享出来,这里面的一些洞察可能大家无法完全感受。
除了customer分类的分析,我们可以结合survey数据进行客户细分的分析,我们假设是两维的模型,从左到右是诊疗意识的低和高,比如说对抑郁的治疗意识,左边是低,右边是高,上下是不同专业方向的区分,如上面的是睡眠,头晕/头痛方面,下面是脑血管方面,我们可以对医生进行分类,同样也可以做我们非常擅长的cross
tab分析,如果我们看区域二和三的话,可以看到客户的诊治意识比较高。还有第二个维度,比如说专业方向,比如说在第二个大区的话,更多的医生是睡眠头晕方向,在第三个大区可能是脑血管方向,可以提示销售团队和市场的同事进行针对性的工作。
同样,我们可以把刚才的这些数据结合医生分类,我们看到用客户药很多的医生里,高处方的医生里,我们看到即便是对于处方量高的这些客户,其实从诊疗意识上还是有很多工作可以做的。
下面我跟大家分享这个因果模型,这个模型是由我们的大数据团队专业的做数据挖掘的同事帮我们建的模,我们试过不同算法最终选的是C5.0的这个方法。在建模的时候也试过不同变量组合,比如说客户可以控制的变量如拜访次数,还有会议类型,还有时间序列的,比如说我们这个项目也做不同的wave,和之前的相比。我们今天就先来看右边的可控变量的结果--客户可以通过改变他的频率和次数来改变。最终的结果,可以看到,拜访还是是最给力的促销方式。第二个,这是拜访的正评价率,这在CRM系统里是包括这个字段的,其次才是会议,我们发现,不是说不的会议是什么样的,更多的是开多长时间,并不是你讲什么内容。提升目前市场还是非常的依赖SOV的。
我们现在有了这个model我们有了输出和输入,我们在这个Case的时候,我们也试图做一些尝试,我们知道大数据应该是有预测性。既然我们有C5.0的模型,这里分享了一个变量变化对于客户销售量的影响。可以看到,我们把高处方的医生这组先去掉,这样可以更好的看到对比。吧original拜访此时看作是基础值。如果我们把每周拜访频次加一个increment,我们可以看到高处方量的这里,经过分析的话,可以看到有很大的提升,再加一个,加一个,加一个,可以得出这样的预测值,在其它的不变的时候,只是增加拜访次数,可以看到医生处方的变化情况。
说到未来,我们这用了一个迭代这个词,这个项目作我的经历的过程中确实也感觉是一个迭代,数据越来越多,分析维度也会越来越多,Model的可靠性也会提升。首先我们看看现在在哪?整体的roadmap是什么样呢,我们从SFE
focused开始,然后来到了segment,最终的目标是围绕个体客户的360度分析。我们已经通过刚才的分享,可以看到这样的情况,大家看到我们的数据量还是不够的,我们的愿景是达到360。
怎么做呢?所有的这些东西,就是每一个公司的数据,每一个客户的数据,起点是医生的基础的信息在这个数据库里。但是所有的这些数据怎么填进去呢,我们也进行了思考。当然一个方法是找我们这样的市场研究公司帮你去搜集,但这么做成本会很高。另一思路是可以吧数据获取植入到销售拜访中,就是把他做一个拜访的拜访话术中,举个例子:一个代表在科室里目前使用EDA的背景下,如果是专业拜访的话,会出示EDA,然后记录医生提问,然后出示EDA和疑义解决。在这些交流中我们可以引入进来,比如说代表跟医生做开场白的时候,现在有病人量怎么样,有多少病人,这里就是一个数量的搜集。比如说我们出示了EDA以后,跟医生探讨,医生说用你们家产品比较少,主要是因为你们家的产品作用挺强,但是副作用也大,我不喜欢这样的,我喜欢作用机制和缓,也比较安全的。 比如说代表还可以问级您这个领域觉得哪些老师做的好,也可以问问最近开会怎么样,这样通过拜访能够比较快的手机个体医生信息,丰富360变量。然后基于这些非结构化得记录我们可以做很多东西,我们可以通过机器学习的模型,可以把一个医生贴上标签,我们还可以通过这些非结构化的comment,可以进行产品特性,专家/医院mapping等分析。
再有,我个人觉得这是非常感兴趣的一个话题,就是基于我们的这个模型,可以做touch
point optimization,比如说我们这里举了个例子,某个产品什么活动造成了它的销售的情况,比如说有25%是你不做推广,也会有25%的生意,因为这是一个惯性,就像可口可乐的广告一样,里没看到也还会喝可口可乐。百分之多少是因为拜访,百分之多少是科室会贡献的等等。比如说目前我们通过模型可以知道某个产品的touch
point贡献,一旦我们知道它的关系,我们就可以做一些最佳的促销组合的分析,换句话说,我把这些调整,我应该得到一个更好吃的鱼香肉丝,当然我们需要客户给我们开放出来成本数据,这样的话,我们就可把成本带入计算,比如说为了增加多少病人,我的投入是多少,这些病人的产出是多少,可以做一些精细化的分析。
再回到之前跟大家分享的,我们想通过Physician 360达成一个真正的智慧运营管理这一目标。这个模型可以给公司领导一个强大的工具,去虚拟的在沙盘上进行模拟,产生多张what
if senario,可以看到这些senario对商业的影响结果是什么样的。这基本上就是我今天跟大家的分享。
最后,我要感谢我的两位同事,我是做小数据出身的,我不会做这个模型。HCR这边我们是有一个大数据团队,马亮博士是我们的首席数据科学家,清华大学数据挖掘的phd,这个项目组成员还有王驰博士,是北京邮电大学计算机算法的phd。
|