比预测未来更重要的,是改变未来 | 数据科学公开课
甲骨文“预”字的形象,取自占卜用的龟甲
本文整理自尹相志老师的线上公开讲座《数据无所不在》上半部分,更多干货内容,请观看视频回放。视频配有字幕。
扫码免费观看直播回放,总长120分钟
数据科学心法与机器学习实战 第一讲:数据无所不在
1.“预”的本意是占卜
——人类文明中最早的预测
人类几千年的文明一直都在做预测,占星术就是最早的数据科学。
古埃及人其实是根据尼罗河空中的天狼星,走到一个特定位置,来预测什么时候就要来大洪水。古人每天看星星,找到规律,开始有年,月的概念。也发现星星位置跟地面上的很多行为有联系。
中国也有不输别人的预测。甲骨文的“预”的原始的意义是什么?看形状知道,预测的“预”其实就是龟甲,乌龟腹部的龟甲部分。
不管是中外,预测都跟占星,占卜有关系。
2.数据科学的精髓
——预测并提前采取措施
数据科学最常见的用途就是预测。但单纯预测类似泰坦尼克号上船员生死之类的问题,远远不是数据科学的全部。
如果你可以提前预测,你还能做什么?根据预测结果做出决策,解决预测发现的问题,可能是数据科学真正的精髓。
你要怎么确定你能理解这个世界?最好的方法就是你能预测。你能够预测未来,就代表你对这个东西有透彻完全的了解。
通过一些事物去了解这个世界的本质,去预测后面的一个趋势,本来就是人类过去的千年的文明一直在做的事情,只不过换了一些更科学的工具。
3.能预测还不够,
你必须留出足够时间做出改变
做预测要明确两件事情。
第一个要明确的是,你要用A去预测B,前提是A必须要发生在B之前。
比如保险公司分析什么样的人会理赔,结果发现:只要更改过地址的人都很容易发生理赔。但这是一个伪规则:假如你搬个家,你会告诉保险公司你家搬了吗?大多数人很容易忘了通知保险公司。因为“我想要理赔,所以我才告诉你搬家”。
第二个要明确的是,在B发生之前,就必须得到 A 的数据,你才能做预测。
使用数据时,你不但要考量预测的时间顺序,而且你还必须要考量到在预测的时间点,你拿不拿得到数据。用更严格的标准来看,在B发生之前取得A的数据都还不够,为什么?你必须还要有足够的时间让你改变未来。这个才是重点。
我们预测的真正目的是为了改变未来,就算不能改变未来,你也应该要因为之前知道了这件事情,而让我可以增加收益,或者是减少损失。
4.运营商客户留存案例一:
没法改变未来的数据预测,就是耍流氓
我之前在台湾介入电信运营商的客户流失分析。这家运营商有自己的客户流失模型,看起来好像很准,但总是没用。他们有很大的数据库,但更新周期以月为单位。每月1号到5号处理数据,到10号左右,上个月数据才能更新到数据库里。
他们每个月会预测一次客户流失,用上个月的数据预测本月客户流失,比如用4月的数据去预测客户5月会不会走。
4月的数据整理到数据库里,要等到5月10号,然后要花几天时间做数据挖掘。出于对个人信息的保护,处理完的数据没有带真正的身份,只用一个代用的ID。再返回来真正的客户清单,又要两三天。这时5月已经过半,终于挑出了客户名单,分配给客服,去做客户挽留。把任务分配出去之后就5月就快过完了,月底打开名单,好准!该走的客户全都走光了。
做数据有一点像医生,一种是数据法医,一种是数据名医。法医判断很准确,但是人死了你没法救活。名医可能要在发病前一年,就已经知道你有问题了,就开始帮你解决问题去治疗。
没有办法改变未来的数据预测,就是耍流氓。数据科学未来的一个切入角度,是如何让预测结果发挥最大的效果。只学一些算法肯定不够的,可能你对于营销、经济学、心理学也要有了解,这些东西都能够有助于你去了解怎么样去用这些数据。
5.运营商客户留存案例二:
如何根据数据拟定策略,影响未来
台湾手机卡的合约一般是两年左右,做的客户留存模型,要提前6个月让运营商知道这个人可能会走,也就是在合约的第18个月制定策略。
为什么要到第18个月就开始去做?因为事实上,连消费者自己在第18个月的时候都还没想到我要不要毁约。
运营商给客户做一个营销活动,客户不一定喜欢,还要给第二次,第三次。但每个月都做营销让用户厌烦。所以运营商希望做一个月营销活动,休息一个月,三次一共六个月。而在这六个月中还可以换不同的营销策略。
我画出来客户流失危险期,客户的流失率从第22个月突然反曲点往上升高,几个月在流失率变平坦,用户稳定下来。只要撑过这几个月危险期,后面就稳定了。这个图的重点就描述出我们的策略——我们无论如何要把这个人留到续约后的八九个月,之后稳了。
为什么强调讲心法?因为同样看到这张图,可能大多数人只能简单告诉你,合约结束后的第二三个月客户流失最高。但我们还要去确定整体攻防战术:
-
怎么样用数据去拟定商业战术?
-
怎么判断在什么时候开始防御?
-
如果在六个月前开始防御,营销活动要持续多久
现在算法的获取越来越简单,但怎么运用数据,怎么看待数据,怎么让数据成为我们解决问题的重要工具,就没那么容易知道了 。这个公开课,以及后续系列课,我们会以很实务的案例,来告诉大家如何用数据去设计对应的战术,这些心法,会比算法更重要。
讲者:尹相志
下半部分预告:
《你应该知道的15种数据推断低级错误》
推荐课程
小伙伴组队学习折上折:
3人组团959,5人组团899,10人及以上团799
在校学生特惠:5人组团即可享受799的10人团购价
学生组团学习交流群”,进群组队学习
数据科学家,21世纪最性感的职业!
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!
始发于微信公众号: 集智俱乐部