【毕友导读】寇纲,西南财经大学教授,博士生导师,工商管理学院执行院长,主要研究方向包括商务智能、信息系统、信用评分、应急管理等。本文是寇纲院长在西南财大2014年研究生学术节年会上的演讲全文。
大数据与决策
(前面有一点内容由于录音质量就做省去,不影响最终阅读,理解全文。大意为为了讲解大数据,先说两个例子,下面是第一个例子,讲关于塔吉特百货的大数据应用案例。)
有一天,正常营业的时候,有一位中年男子走进了塔吉特百货,他进来的时候显得脸上怒气冲冲,直接对店员说,“我要见你们的值班经理!我要跟他好好的谈一谈。”,店员一看,他的态度不太对,就赶紧把值班经理请了过来,来了解情况,那么这位中年男子就非常愤怒的表示:“今天我回到家的时候,打开了我们家的邮箱,塔吉特也经常给我寄各种各样的推销广告,我就看到了塔吉特的广告,今天这个广告专门标明是寄给我的女儿的,我就打开看了看,结果发现,这些广告全是关于孕妇的用品,你知不知道我女儿只有16岁,你们给她寄孕妇用品意在何为?你们想逼她怀孕吗?这种行为简直让我无法忍受。”塔吉特经理一听,觉得这件事情出乎他的预料,马上表示道歉,“可能我们店里面在邮寄过程中发生了一点问题,结果误将给孕妇的宣传广告和折扣券给您女儿寄去了,使我们发生了一些错误,实在对不起。”经过反复的解释和道歉,这位父亲虽然还是很不满意,但是毕竟这是一件小事,他也不能再说什么,最后带着怒气离开了。过了几天,这个经理又想起了一些事情,作为一家大公司,他们都有严格的流程和制度,他认为发生这样的错误确实不应该,我们还是要再次表示歉意才对。于是他给这位父亲打了电话,接电话的是这位父亲本人,经理听出他的声音,立刻表示道歉,可是这位父亲的态度发生了很大的转变,他说:“这件事情看来,我作为我们家的一家之主,对这个家里发生的一些事确实难以做到一切都知晓,我女儿确实怀孕了。”
这听起来好像有一点奇怪,为什么塔吉特会在这个一家之主都不知道他女儿怀孕的情况下,能够提前判断出他女儿怀孕并给她寄出孕妇的商品促销券呢?这引发了我们对塔吉特这些业务部门的进一步了解。
我首先介绍一下,为什么塔吉特会做这么一件事情。那么我们知道,当我们同学想到沃尔玛的时候你会想到买什么商品?那肯定,绝大多数同学会想到,我想买什么东西都会去沃尔玛,比如我要买一些百货,我想买一些家庭日常生活用品,我要去沃尔玛购物。但是我想同学们可能没有体验过,要是一个家庭有孕妇或者孕妇家庭想要去采购东西的时候,他很难首先联想到这些连锁超市,他往往想到的是大型的百货商场,或者是专业的孕妇婴儿用品的商店,但事实上呐,不管是作为塔吉特也好沃尔玛也好,他们的商场里面孕妇商品都是比较齐全的,而且孕妇用品作为一种特殊行业的用品,在利润率等各方面对商场来说能够贡献的是远远超过我们传统意义上的百货商品的,可能传统的百货商品在超市里的平均利润率为5%,最多不超过10%,但可能孕妇用品能达到20%、30%的利润率。所以塔吉特针对这种特殊种类的商品,希望做一些定制化的宣传。我们知道,塔吉特作为一家连锁性质的超市,他拥有大量客户的购物信息,这些购物信息是通过这些客户在这里长年累月进行消费积累起来的,很多客户都申请了塔吉特的会员卡,这些卡有什么作用呢?每次来消费的时候,来刷一下会员卡表示身份就能给予额外的折扣或者说年底的时候给你一些特别的促销和返利。作为一家超市,他给客户发放这些卡一方面是给忠诚的客户一些更多的回馈,另一方面是塔吉特希望通过这样一些卡片收集到他所面临的客户群的具体信息和使用习惯,那么塔吉特收集了这些信息后他做了些什么事情呢?他特别针对,我们刚刚说了孕妇产品对他来说是利润非常高的,孕妇用品做了一些分析,那么在这一分析过程中,塔吉特的数据分析员发现一共有多达111种的商品与孕妇在日常在塔吉特的购物习惯具有高度的相关性,那么这些高度的相关性不是简单的表现为你买了某一种商品就一定怀孕了,或者你买了某几种商品你可能就是某种情况,而是他建立了一个严格的计算机仿真模型和一系列的模拟演算之后,建立了模型之后,能够将孕妇和这111种商品建立一种非常精确的关系。那么这些关系能够准确到什么程度呢?这一关系能够达到塔吉特通过这111种商品的购买频率、情况推算出孕妇的预产期,预测的误差不超过两星期。
那他为什么能做到这一点呢,比如说我给大家举一个例子,孕妇在怀孕过程中会在某一阶段购买特定的商品,很多孕妇在怀孕第三个月的时候去购买润肤露,这种润肤露是一种贴别的润肤露,不添加任何香味,人工香精的,我们知道一般的润肤露都带有很好闻的香味,但孕妇她由于在怀孕早期对肚子里的宝宝的保护考虑,她全身会出现很多症状比如瘙痒什么的,会需要大量的润肤露,她又担心这样的香味会刺激到肚子的宝宝,所以她会特别用无香味的润肤露,当然这只是一种情况。塔吉特通过对孕妇这些特征品的模型的构建,他就能很好的建立这么一个关于妇女怀孕的预测模型。所以只要是顾客来塔吉特购买这些,甚至是日常我们觉得和怀孕没有必然联系的商品,比如说,各种维生素微量元素这些东西,他通过一系列模型,当然不是单一商品,进行分析,他就可以预测出孕妇怀孕的情况,那么他的精确率就会相当高,同时他通过先人一步的洞察力,就能够给孕妇寄出针对不同怀孕阶段的一些推销广告,那么通过这样一些推销广告,塔吉特获得了很好的商业效应,在全球,关于孕妇产品的销量从他推出这样一个策略之前的每年一亿美元猛增到次年的十亿美元,塔吉特通过这样一个大数据的分析,获得了一个很好的商业效应。
这是第一个故事,那么下面呢,我们来看第二个故事,同学们都看到了,我给出的这个图片,有没有什么联想?
啤酒、尿布,有同学能跟大家说说你看到这个的联想,或者你认为啤酒和尿布之间有关系吗?有什么关系?
有请——(女同学回答)“这个故事相信很多人都听过,刚开始是觉得他们两个是没有任何关系,不知道是美国还是哪个国家进行研究发现,到了周末不管是啤酒还是尿布的销售业绩都非常好,然后超市工作人员就觉得很疑惑,这两个风马牛不相及的商品为什么会这样,一般的话,美国人采集商品会一次性把一周的商品都采购完,家里有小孩的都会让男主人去采购东西,买东西的时候除了买啤酒回去看球赛休闲之外,还会为家里的小孩购买尿布,所以超市看到了这个事情之后就做了一个数据挖掘,将这两个商品做了一个关联性分析,发现很多类似的商品都可以做出搭配销售,大概就是这样。”
好,谢谢啊,这位同学把我之后要讲的东西差不多的都讲完了,我可以下台了(笑:-D),那么我希望同学能和我一起听听这个故事背后的事情,相信很多人都没有听过。
那么我们刚才说了,塔吉特,全美的第二大连锁超市,大家都知道世界第一大连锁超市是沃尔玛,塔吉特我们刚刚说的他做的这个事情是在2010年前后,2010年可能全球很多大公司都开始重视大数据,进行业务跟踪,那么,沃尔玛成为全球第一的连锁超市是不无原因的,我们接下来讲的故事发生在上个世纪90年代初期,你想想,在上世纪沃尔玛就把大数据,当然那个时候不叫大数据,叫数据挖掘用在了他市场营销部门中,我们看这个我们很多同学都知道的故事,关于啤酒和尿不湿的故事,那么这个故事之所以这么被大家深深记忆,因为啤酒和尿布具有一个我们传统意义逻辑认识里面非常大的差异性,他们是两个完全不一样的商品,我们来看看沃尔玛是怎么把他们联系到一起的。
沃尔玛在上个世纪90年代的时候通过对客户的分析,发现了一个现象,用简单点一句话来表述,沃尔玛发现每个周五的下午五点到七点,啤酒和尿布销量突然大增,而且不是分别购买,而是同时被某些特定的人群购买,什么样的人群呢,年轻的男性。沃尔玛经理和我们一样,看到这样的话都会产生一些疑惑,然后就对这背后的一些逻辑原因进行一些分析。通过对客户的采访和了解,发现和最初预想的情况比较相近。
购买者是年轻的男性,沃尔玛经理一看到这样的年轻男性来购买尿布,首先会联想到他是一位父亲,他家里刚刚有了小宝贝,他需要购买尿布,同时我们知道在美国,职业体育联赛是非常发达的,到了周末都有大量的赛事。这些年轻男性都是体育爱好者或者说是球迷,在之前,他们会在周末去看比赛为自己心爱的球队加油助威,那么现在家里面有了宝宝,他如果还出去看比赛,把太太和宝宝留在家里面,估计会遭到太太不要说是强烈抵制,估计下次就不要进家门了。那么白天太太给他打电话说记得给宝宝买尿片,那么在下班回家就会去买一点尿布,那么明天后天有比赛,我出去看不成,我还得给自己买点啤酒喝。
沃尔玛经理了解了这样一个情况,就做出了一个决定,每个周五下午,啤酒和尿片捆绑促销,买一打尿片送一瓶啤酒,一瓶不够喝,至少要六七瓶,那我就买六七包尿片回去,同时,沃尔玛经理很聪明,他知道年轻爸爸下班路上肚子又饿又急着回家看宝宝,路上会堵车,那么就在商场一进门的地方就摆上尿片和啤酒,写上“今天买尿片送啤酒”。这个策略非常成功,沃尔玛的啤酒和尿片在周五下午大卖特卖,获得了非常好的销售业绩。
这个故事只是大家了解的关于沃尔玛的第一步,那么现在我跟大家分享第二步,在坐很多同学可能就没有听说过了,除了啤酒尿片在周五下午卖的很好这件事情,沃尔玛还发现了另外一件有意思的事情,周日的晚上9点到11点,啤酒和尿片也出现了大量的销售情况。这次来购买的人是年轻女性。下面在坐的同学听到这个信息有什么直观的反应?年轻女性在周日晚上来购买啤酒和尿片有什么原因?当然第一个原因是因为她家里面有宝宝,她是位年轻妈妈,那么有哪位同学想跟我一起分析一下?
(女生)“我认为可能是那个爸爸买了太多啤酒尿片回去,妈妈会觉得奇怪,那么星期天逛了街也想去看看,然后发现广告做的这么凶,她也很动心,然后也买了很多啤酒和尿片。”(笑)
这是一个比较有意思的解释,那么还有没有其他的?
(男生)“可能是因为周末过完了嘛,妈妈觉得他照顾孩子辛苦了,然后妈妈去购物的时候就想着帮他一起买了。”
谢谢,我们可以换个角度来思考,周末9点到11点夜已经深了,在坐的当爸爸妈妈的比较少,也许有但应该非常少,你可以想想你的父母,在这么晚的时候还要出去采购而且还是给父亲采购,当然父亲从来什么家务事都不做不在我们的讨论范围里,那么一般的家庭,会不会让一个刚生了宝宝的妈妈出去单独采购,这个可能性大不大?
“不大。”
现在就不能用常理分析,那么久需要更进一步,沃尔玛经理当时也是这么想的,这是发生了什么事呢,他就想起了美国的一个非常普遍的社会现象,那就是单亲妈妈,或者是未婚妈妈,在美国有很多女性因为各种原因,或许是因为想保持独身还是各种意外,她生下了宝宝,她没有结婚也没有男朋友,那么这样她就面临着独立抚养这个宝宝的问题,需要购物的时候,就必须全靠自己。作为家里的支柱,在礼拜一到礼拜五她需要出去工作,周末要带宝宝,那么周日晚上的9点到11点是个什么时间,宝宝睡着的时间,这个时间,单亲妈妈就会想着我得去买点东西,下周还得上班,很忙,没有时间买。我确实又非常累,其他妈妈平时在家照顾孩子,周末爸爸还要回来搭把手,我平时上班,周末还要带宝宝,这么累,周末喝点酒恢复恢复,我下礼拜才有更好的精神去工作。
那么沃尔玛经理知道这个消息之后会和周五采用同样的方式吗?你觉得会还是不会?你觉得怎样去卖尿布和啤酒?
(男生)“我觉得这个时候就应该按照消费者需求来提供,促销不一定有那么大的作用,要是你帮配送啊会有更大的作用。”
我发现我每次讲这个的时候,很多同学都会出于同情心,觉得这位单亲妈妈很艰难,我们应该包配送,或者提供更多的折扣等等等等。我们的角度不是同学,而是沃尔玛经理,沃尔玛作为全球性的大企业有社会责任感,但作为一个企业,他首先想的是我怎么卖出更多的商品,我怎么扩大企业的利润。包配送沃尔玛可以做,但这件事对沃尔玛有没有太大的帮助?其他同学有没有想法?觉得从企业角度来讲,该怎么做?社会责任感只是企业考虑的一部分而不是全部。
(男生)“我认为可不可以开晚一点,因为宝宝九十点钟睡,可以开到十二点。”
获得更多的商机,是吧?这个可能有一点大家不知道,沃尔玛在全美的超市都24小时营业。(笑),那我代表沃尔玛经理给大家做一个分析。
这个妈妈是家里唯一的成年人,对她来说,周日的采购可能是她唯一的空闲时间,他需要采购全家下个礼拜所有的东西,作为沃尔玛经理,我要促使这位妈妈购买更多的商品,要怎么做?我应该把啤酒和尿布放在超市相隔最远的两个货架上,那么她来购物的途中会走过我沃尔玛的每一个货架,大家知道女性和我之前说的年轻男性购物习惯不一样,男性我恨不得冲进超市就在一个地方买完所有东西,而女性喜欢慢慢选慢慢挑,那么她走过每一个货架时,不光买走了尿片和啤酒,还带走了满满一车,所有的家庭用品。大家可以想想,同样是尿片和啤酒之间的故事,同样的数据,时间和人物不一样,地点和商品一样,得到的是完全不同的结论,在礼拜五要捆绑促销,在礼拜天要分开放,这是个非常神奇的战略。
这个背后就是大数据带给我们的思考,我们要怎样来理解大数据,除了故事本身之外,我们还得到什么?数据,是我们今天走到大数据时代的一个重要元素,那么除了数据之外,更重要的什么?是我们人的决策和领导,只有通过人的分析,这些数据才能给我们的企业和社会带来帮助,带来价值。
我们回到大数据这个话题上,我们来看看大数据到底是什么。当我们第一次听到大数据的时候,产生的第一个概念,就是非常大非常多的数据。下面是我们从各种地方找到的关于大数据的定义,第一个是我们很多同学都应该读过的舍恩伯格的《大数据时代》,他提出,所谓大数据就是大量的数据。非常简单,非常直接,多,就是大数据。那么是不是只要数据多就是大数据了呢,我们来看看第二个定义,大是个量值的概念,怎么样才算大?一百算不上大,一千算不算大,一亿算不算大?我们不知道,那么我们来看一看,所谓大数据的大是大到个什么程度,是大到我们一般的计算机一般的互联网,难以管理的程度,那么这是第二个定义。我们再来看一看,第三个定义,不能管理到底指的是什么呢?不能管理指的是,如果我有无穷无尽的时间,宇宙不会毁灭,不管多大的数据,我一天弄一个,发扬愚公移山的精神,到达无穷的时间的时候,不管多大的数据都能处理了。所以这里我们再加上一个定义,大数据的大,指的是在规定的时间,甚至是实时,我们不能够很好的管理和处理的一个规模,这是一个关于大数据的最基本的定义。
看了这个定义之后,我们来关注一下大数据被大家广泛认知的4V特性,什么叫做大数据的4V呢,这可能是我们说到大数据的时候最常提及的概念,4“V”(量Volume,多样Variety,价值Value,速Velocity),这四个单词恰好都是以字母V来开头,我们说的大数据的4V特性指的就是这四个V,那么下面再给同学们介绍一下,这4V分别指的是什么呢?
我们一提到大数据就会想到数据的量很多,那么究竟大到什么程度呢,或者是我们的脑海里有怎么样的定义呢,我们可以以一个数量级来表示,大家看我们这里罗列的B,KB,MB,TB等,不管是哪个B都是以一千多这样的数量级递增,一个GB等于一千多MB,GB我们都很熟悉,我们的手机内存都是这样说的,我们叫它GB量级,电脑的硬盘是多大,都是TB级的,这叫TB级的数据,那么对于大数据,这个大永远是相对的在变化着,现在2014年我们讨论的企业级的大数据是多大呢?就是用PB表示,就是一千多TB,也是一百万个GB,一百万个GB什么意思,在坐的同学拿出你的手机来,大概一百万台手机加在一起,可能就是我们今天认为的2014年的大数据。那一百万的概念是多少,这里的同学有多少,大家也有概念(八百人厅)。这就是我们说的大数据的第一个特性。
第二个就是多样性,我们知道现在的数据是无时无刻的围绕着我们,就像我们今天,坐在会场中,听讲座,我们接收到的数据有多少?大家可以想一想,我在这里作报告,产生了音频的数据,如果有个摄像机,就产生了视频数据,你们的手机也在产生各种数据,在实时传递各种信息,流动移动互联网,包括你们之间的交流和做的笔记,数据特别是在我们今天的移动互联网时代,无处不在,来源多到我们无法想象,超出我们传统意义上计算机可以管理的模式,所以对我们来说,从来源到结构各个方面都组成了多样性。
第三个就是大数据的价值,就好比我们去挖金子,大数据非常火,每个全球五百强每个企业都在用大数据,是不是说大数据作为一个金矿,产金量很高呢?传统统计分析是从数据中找到有价值的东西来帮助企业发展,帮助社会进步,而大数据正是与此相反的概念,在大数据中去找金子,就好比我们站在一个辽阔的大山上去找一颗唯一的树,这对我们来说是一个如此巨大的挑战,正是因为价值利用率如此之低,才造成了我们之前传统意义上的数据分析工具无法解决的问题,所以才迎来了我们的大数据时代,对我们提出了这样的挑战。所以说,价值利用率低是大数据时代一个非常显著的特征。
第四个特性,是大数据的速度,比如同学们会问,寇老师,你说在大数据时代我们能解决大数据问题吗?其实很简单,我说你只要满足我一个条件,我就可以解决大数据问题,那就是给我一台计算机,但这台计算机有特别的要求,我要求这台计算机比全世界所有计算机加在一起都还要再快一点,快一点点就够了,就表示我能把全世界产生的所有数据都处理了,不管数据多大,多复杂,价值利用率多低,我都能完全的解决他,那我们有没有这样一台计算机呢?我们知道在最新公布的计算机排行榜上,我们的银河二号计算机再次蝉联冠军,处理数据非常快,但他和全世界计算机的运算速率加总相比,能占多少呢,千分之一,万分之一,也许还不到,所以就我们现在拥有的技术,大数据的问题我们就无法完全解决,为什么这么说呢,当我们面临如此海量的数据时,我们怎么能实时的处理它,因为在我们处理分析问题的时候,数据在不断重复以更快的速度涌现出来。这就是我们大数据的第四大特征。
那我们一起重复一下大数据的4V特征。
那我们都知道大数据有这四个特征,在我结束这个报告之前,我再对数据的价值进行一个分析,这个人大家都很熟悉,特别在他上个月来我们中国之后,引起了广泛的关注,这个人是谁?脸书的创始人,马克扎克伯格,他去清华做了演讲,他作为一个土生土长的美国人,一个互联网传奇,他的演讲怎么做的呢?用中文做的,可见中国市场的重要性。他的公司上市之后引起了全世界的关注,这个公司作为一家非传统意义上的互联网公司,有一个特性是传统的会计准则无法衡量的,上市当天是38美元,实际的开盘价是43美元,哪怕以38美元计算,Facebook在纳斯达克上市的市值达一千亿,美金哦,以传统意义上的会计准则来算,它值多少钱呢?它的所有软硬件设备,包括它的专利估值,一共值63亿美元,股民们认为它值一千多亿,这中间差了多少?接近一千亿,这一千亿刚好给我们很好的机会来估计数据的价值,从Facebook来看数据值多少钱,刚刚我们说了,这63亿算了很多,但有一个的价值它无法估算,这就是这些用户信息的价值,那Facebook有多少数据了,在它的存储设备里,一天就有超过2.1万亿条博客,那我们把这一千亿换为每条博客的价值,那么每一个50美分,又以用户量来算,每个用户值多少钱呢?每个用户值一百美元,那下次你们在新浪发微博的时候,你们想想新浪有没有给你们一百美元,没有给,而是给他赚了。那么这是数据价值。
今天由于时间关系,就不能继续讲了,我们下次有机会再继续说大数据。
文/共尚严惠(gsglyh)