【毕友导读】本文是北京大学法律经济学研究中心联席主任薛兆丰在“第十五届学习型中国-世纪成功论坛”上的演讲,认为大数据时代“人的掂量”最贵,最后所有要解决的问题都要回归到信任的建立。
大数据时代,“人的掂量”最贵!
各位大家好!前面我们听了大数据、互联网的解释,听了他们的应用,互联网是过去10年完全想象不到的巨大的变化。怎么去幻想,怎么去想象都不过分。有一些非常小的数据给大家一个参考,在今天,所有的数字化的资源占所有资源的98%,10年前是25%,只有25%是数字化的,其他的信息都是纸张、唱片、胶卷等信息,到今天发展得非常快,98%的数据是数字化的,我们生活已经完全数字化了。今天一天上传到Youtube的视频,就超过以前整整50年拍摄的数量。大家可以想象这个数字怎么爆炸!
随着我们生活越来越数字化,我们计算机就没有边界了,今天所有的听众来听关于大数据、关于互联网应用已经不是第一次了,我今天跟大家讲的内容是有一个反思,反过来问,最后边界在哪?计算机能做什么,而计算机又不能做什么?这个故事要从非常古老的洞穴寓言,这是柏拉图说的,他说我们人类有没有反思过?如果我们是一群被铁链绑的人,从来你的脸都是看着那个墙,这时候你看到的那个墙是你知道全部的世界,而这时候真实世界是发生在你背后的,有真的移动的人,真的桌子、椅子、动物,他们都在一个火炬的光源的前面移动过,而你看到的仅仅是那堵墙!
你会怎么理解这个世界?你永远不知道真的世界是怎么样的!你看到的只是一个平面。你不知道它背后发生了什么事情!他说,我们哲学家,或者我们知识分子,我们人类有一个本事,跳出锁链的人,能够看到背后真的发生了什么事情的人,他需要联想,需要机器做不到的事情。我们古代说我们观察天象有两个文明,一个是巴比伦文明,他们非常精确的记载了所有星座的移动,这是最早的大数据。它从中预测到哪个星什么时候出现?有大量的书记载。这是一种文明,非常精准知道哪个星什么时候出现!
另外一种是幻想的文明,我们看到天这是一个锅,有一个帐篷,撑着四个顶,天是有边的,如果你走到那个边就会掉下去。他能想象一个我们看到这个图,这个墙背后想象成跟这个墙反映出来的现象不同的世界。这里是人和机器有不同的地方,就是研究人工智能、机器语言和机器学习,最后他们问的边界的问题,人和机器差别在哪里?“这个人怎么样”这是描述性的,如果我涨价,销量会变得怎么样?大家可以做测试。还有一个语言是虚拟语气,不是每一种文字都有专门的虚拟语气,如果我是你,情况会怎么样?如果鸡不叫天会不会亮?这是人类独特的特点,是机器做不到的。
现在许多机器学习,他们说机器能够学习,能够处理大量的数据,刚才有一位演讲者说人有多少特征描述?我的回答是无数个。给一个苹果给你,请你描述这个苹果,你会问,用什么角度?因为有无数个角度,有形状、颜色、甜度、厚度,现在指标很多,传统银行描述一个客户存贷款变量有几十个,现在发展为几百个。阿里巴巴的变量有上万个。他怎么用这些指标?我们说有了这些数据,我们有了大量的数据,一天产生量是过去50年产生的量,机器是可以学习的,你可以探索,找当中所有的关系,但是机器做不到的是掂量。
刚才那只猫可以弹钢琴,它在钢琴上跑十年,逻辑上能跑出一首莫扎特的曲子,但是还是由人来决定到底这个维度对,还是那个维度对!所以机器学习有一个重大的缺陷,它能提出许多的相关性。头发长是艺术家,但是因果关系无法判断。只有人才在当中掂量哪个因素是重要的。我们所有学管理的都在背后解释他为什么这么成功?是他营销做的好?他平台做的好吗?他有高瞻远瞩吗?有无数的理由,最近我听过一个理由他说,阿里巴巴早做都是亏的,后面做才是赚钱的,最重要的原因是从小抱着计算机长大的那些人,相信计算机的人开始赚钱了,毕业出来赚钱,开始买东西了,其他都不重要!我们看到阿里巴巴成功的数据,整个大经济的状况,所有这些数据放在这里的时候,那么多的因果关系你挑哪个?这是机器做不到的。
第三,人会欺骗。这也是独有的。我们说互联网的时代是一个崭新的时代,但是以前有电报的时候,大家有没有想过这是新的时代?我们有电话的时候,这又是很新的时代!其实,谁都没有电话,只有很少人有的时候,你确实是比别人高一点,但是人人都有电话的时候你就不会比别人快多少!这时候我们要回归一个本质,最终决定胜负的是,你能不能建立非常牢固可靠的人与人之间的信任关系。在街上我看到一个骗子,他问我要钱我不会给他,如果他给我打电话我就会给他了吗?如果他有一个ID我就会给他了吗?我们有许多的策略,开始的时候我们喜欢说“上了网就完全不一样了”!其实你看阿里巴巴,我给他们做经济顾问好几年,其中一个重要的领域就是网规,建立人与人的信任很容易啊!实际上,人的聪明程度远远超过机器的,他会利用它,然后会出现职业的差评师。包括他在社交网络里面转发什么样的贴子,是不是专门专发不靠谱的贴子,这些都会被记录。
第四,还有人需要激励。我们外面经常谈到的是到了互联网就是大数据,所有人都是共享的,有些大公司都喜欢说他们是全资共享的,真拿出共享的资料是有限的,我们发现最后资源特别是数据资源,特别是经过人工判断的,经过因果关系判断的数据是很贵的,不会随便给你的,哪怕是一个大公司,别说你是一个外人,就是内人也不是每个部门都同样能够得到这些数据的,不同的部门把数据都锁的死死的,其中一个部门是用数据最好的,是最多人愿意向他提供的,就是小贷!我要这个客户资料是能够创造利润的,你不告诉我们,就会亏钱的。在一个大公司里也不是人人都得到相同的数据的使用程度的。
大数据不仅是大,而是要求活,要从具体的业务出发,以具体的业务作为导向。很多人认为大数据非常廉价,比如说服务器、云,我最近自己买了云服务器,每个月我觉得速度不够快,本来20美金,现在涨到40美金,我自己用来做非常简单的工程,40美金的服务器,我的学生说,40块钱很贵了,你这个运转速度比Facebook创建的时候所运转的服务器还好。面粉多的时候肉就贵,机器越便宜的时候,人的判断人的因果关系,“人的掂量”就越贵。
第三,大数据必须人才非常专业。现在全美国我知道若干个、不到10个有专门做大数据处理的,实际上都是跨行业的人才!大数据需要的人才有非常深的,比如他是黑客,对技术非常了解,他是数据专家,他清理数据的能力非常强,建模能力非常强,他沟通能力非常强,他跟建模的人和商业使用的人沟通能力非常强。这五个领域是不同的领域,有人是非常深的,但是更需要是两三个领域跨领域,这时候因为沟通的成本是最贵的,如果你能找到一个人互相沟通的话,一个人才有若干个本领,他一个人脑袋里就可以沟通,这是非常有用的人才。其实并不是全部开放的,越是原始的数据,一放出去就全没了,覆水难收,颗粒度越细的数据敏感度越强,经过加工实际是需要产权保护的,所以企业在使用的过程中,开发大数据的项目过程中需要注意保护自己的数据。
最关键的一点数据是变化的,技术总是在变化的,最后我们回到人的本质。我们要看人能做什么?什么是机器不能做的,只有人才能做的?最后所有要解决的问题还是回到信任建立。
谢谢大家!