【毕友导读】本文由毕友嘉宾、数联铭品CEO曾途先生推荐。2014年10月15日,以“阿里与复杂·前沿与应用”为主题的第一届阿里巴巴复杂科学前沿论坛在杭州阿里巴巴西溪园区隆重开幕,毕友嘉宾、电子科技大学周涛教授受邀出席并做分享,本文为其演讲实录。
大数据的三股驱动力
大家上午好,在座的大多数都是老朋友,我今天要给大家介绍的应该是你们所有报告里最简单的一个。原来我想是一个比较科普性的场合,给大家介绍一个非常简单的案例让大家看一下大数据是怎样影响我们的科学和教育的。
首先简单说什么是大数据? 我在思考大数据的时候看中的是他内在的三股驱动的力量。
一股力量是数据总量在飞速的变化。比如淘宝现在有10亿商品,这就带来大数据时代的第一个矛盾:飞速爆炸增长的数据量和普通人甄别数据的能力之间的矛盾,也叫做信息过载,因此才有今天的淘宝上的“猜你喜欢”等等的应用。
第二股是数据形态发生了巨大的变化,以前处理的绝大多数是表格类的数据,用一些非常简单的办法就可以得到变量之间的关联,以及作一些简单的预测,但是现在80%的数据从去年开始都不再是表格类的数据,包括语音、视频、图像、空间移动的轨迹、网络等等,怎么从这些非结构化的数据中挖掘出有价值的信息,是我们第二个大挑战。
第三个大变化,尤其是阿里的同事能够感觉到,你们通过大量投资去购买了很多战略性的企业,包括从政府的各个部门获取数据,这就使得第一次有机会实现某种意义上的数据关联形态的变化,以前大多数据是孤立的,但是现在我们基于一个人,有他在高德地图上行车的轨迹数据,知道他的工作地点、家庭住址等等,可以有他淘宝天猫的购物数据,还有他来往上的一些交流数据,还能了解这个人在微博中说了什么话,甚至在某些城市还有他的医保、社保、犯罪记录的数据。那么这样的话,我们可以获得一个一加一大于二的价值,这些才是我们大数据背后的三股力量,他能推动我们未来的服务,从一个全体化的服务变成群体化再到个体化。
大数据时代科研与教育的变化
今天主要介绍的不是商业模式的变化而是大数据的科学和教育。他有什么新的理念和方法? 传统的科学是有数据和理论我们才能进行解释,做预测、控制。大家最熟悉的最成功的就是QED,可以把一个小的粒子的概率寿命精确到小数点后七八位都还是正确的,这是因为他背后有一套完整的量子电动力学的理论。那么有了这些预测的结果我们能够实现控制。这些控制可能是在比较低的温度下,对单原子的控制。那么它的前提是建立在一套有效的科学理论上。但是刚才王飞跃老师以及大家讲过,也包括大家从谷歌这么多年发展中感受到的,我们有一句话叫做“科学应该向谷歌学什么”?现在大数据科学产生的某种变化,我有了数据和理论才能进行完整的解释,但是我没有理论只有数据我也可以做预测和控制。举个例子谷歌利用海量的数据,利用5000万搜索关键词的数据,并和疾病控制中心里面每天报告的传染病、流感的患病人数进行对比,找到100个最有关联的数据,通过非常简单的多变量的线性回归找到45个,用45个最关联的关键词进行预测。它并不知道为什么搜索某个特定的关键词可能会以什么样的形式影响患病的人数,但是他利用这种大数据分析的办法,可以直接对下一周有多少人患流感进行比较精确的预算,这些都是以前我们所没有经历过的。
第二个大变化就是刚才有老师也谈到了,以前在实验室小规模控制实验下的半定量的科学包括心理学、管理学、社会学、社会心理学等等将走向基于大规模非控制数据分析的定量科学。王飞跃老师举了一些非常好的例子,就是原来处理社会科学的办法,往往是非常小规模的实验。但是现在通过一些人工科学,通过这种大数据的采集,真正把国家制度纳入到科学的层面,以前这仅仅是一个基于经验的可以说是半定量的科学。以前做一次实验,比如说探讨宗教问题,我看到最大规模的实验,无非就几百上千人通过问卷的形式。但是现在我们已经找到有8000多人是有宗教标签的,在微博上也有70多万人。那么其中分了不同的教派,通过分析我们可以了解宗教的不同教派之间是不是有非常紧密的联系,历史上有一些彼此不大对头的教派是不是连接比较稀松,他们之间说话、用语到底是用褒义词多还是贬义词多,用有暴力倾向的词多,还是比较友善的词多,我们能够宏观的得到哪个宗教有最强的反社会倾向等等。这很明显,的确存在某些宗教比其他宗教更强的反社会性、封闭型。那么我们还可以做很多的事情,比如说我们可以大规模研究同性恋的问题,大规模的研究农村人搬迁到城市以后能不能适应城市,能不能融入城市。我们给志愿者发手机,观察这些从农村搬到城市的人看他能不能融入城市等等,这些研究方式在以前是难以想象的。
科研合作的例子
我这里给大家举几个例子。第一个例子我们知道以前在艾尔多斯的时代,他终生未娶,到处漂泊的,见到一个数学家有一个好想法,他被认为是一个特立独行的人,但是他推动了整个数学研究从孤立的研究变成大规模的合作,因为他自己一生发表了1500多篇论文,其中有900多篇都是和人合作的,所以我们才有了艾尔多斯数。最近有两篇论文想去看到到底现在我们是不是有更多的论文是合作的,这些合作的问题是不是带来更大的影响力,或者有更高的科学成就。他们通过两篇英文的文章,在2007年和2008年,一篇分析了将近2000万篇学术论文和200多万份美国专利。他们发现除了人文艺术主要还是单打独斗以外,不管是专利、科学、还是工程统统都有一个表现,就是合作的论文变得更多,而且合作论文的人数,合作者的平均数目也变得更多,并且合作论文总的影响力,平均而言要比单打独斗的论文高,专利也是这样。这是第一次证明了这一点,对当时的影响是非常大的。
在08年的时候通过研究美国600多个大学400多万篇论文发现,大学与大学之间通过合作也会起到很大的作用,比如说跨学校合作的文章影响力更大,尤其是强的大学之间联手更好,强的和弱的联手,弱的大学可以提高,强的大学不会受损伤,但是弱学校之间联合比单打独斗效果更差。两个企业肯定也是这样的,大家都是在生死线上挣扎,要不要抱团还是一个问题。
有了这些基础,我们在电子科技大学成立了一个大学研究中心,这是一个很大的机构,有60多个老师,还有很多拿国家奖的。其中有一个很小的团队是专门研究科技情报的。我们就发现顶尖的大学它的跨学校甚至跨国家合作的文章所占的比例远比二流三流的学校更大。由于有了这样的研究,今年在给老师评职称和博士生毕业的时候,我们就把这些跨学校的非利益合作的论文加了一个权重因子算到老师的工作量或是算到学生的毕业要求中,这就整体的改变了电子科大对学生培养和对教师职称评定的思路。这个例子说明,要说服学校做一个新政策就需要用数据说话,比如我要去说服我的校长改变一下我们教师评聘原则,当然在我们中心我新聘的时候可以用自己的东西,因为是一个特区,但是我要改变学校,自己没有办法,但是当我把这些数据提供出来的时候,就很顺利通过了。
社交关系与大数据
再讲一个例子,也是一篇文章,以前我们在社会学中都有很重要的东西,大家很多是做复杂网络的,为什么社会网络是在社会学中逐渐变成一个重要的学科,很大层面上是基于一个假设,说的是认识哪些人和这些人交流的紧密不紧密、关系深不深以及认识的朋友圈子多样性强不强,这些东西放在一起是我的社会资源,比如说我经常和习近平老师、李克强老师交流,那我的社会资源肯定就很强,你平时都是和犯罪分子打交道比较多,你又不是警察,你可能也是高危犯罪分子,这也是我们做了一些研究的。从这个意义上讲,我们的社会他的假设就是我可以把我的社会资本转变经济资本,就是中国人说的“人脉广好办事”。在这样的文章中最早是一个清晰的概念,他把当时整个的大不列颠做了一次人口普查,覆盖了99%的人口,在这个6500万手机用户上,主要来自于3万多个行政区,他把每个行政区看成一个节点,统计这个行政区和其他所有行政区通话的强度,最后算出了他的通话多样性看作这个行政区基于手机通信所得到的熵,发现这个行政区的综合表现,包括教育、GDP、犯罪、教育。大家看到这个图,这个点是平均值,关联量达到0.38,非常强的关联。
昨天我们听罗马大学的老师给我们讲怎么样通过一个算法我们来看国家发展的情况,在一个二维平面上比较他的GDP和fitness。其实我们最近做了非常简单的工作,我们就是统计一个城市,一个是总的GDP,还有一个是微博的活跃数。我们总是觉得人口越多经济水平越高的总是会上榜,但是我们发现微博的活跃程度和他的GDP是很强的关联,有些地方人群的微博比GDP还要活跃。我们找到像三亚这样的旅游服务型的城市,有五个城市非常独特,他微博很不活跃,但是GDP非常高。可以想象,我们基本上能预测,5到10年内它会出现一个比较大的问题,因为他的行业板块基本上是单个行业,而且又是资源依赖性,重工业依赖性。
我再讲两个例子。这个例子很好玩,也是通过手机数据。我们都知道低等生物有一个很大的冲动,他总是希望把自己的基因尽最大可能在大自然里复制出去,但是高等生物可能不是这样的,因为你很难想象我们一次深刻的爱情,他的目的只是为了繁衍,然后让你基因不停的被复制。这个大家可能接受不了,所以说中间有一个问题,在演化生物学中,人到底是怎么样把自己的资源放到亲代和子代还有自己的配偶中来的呢,他们通过将近5亿次的短信和20亿次的通话,他问的问题是"一个人他联系最多最好的人到底是谁,什么性别,什么年龄",他发现了如果是一个女性就得负一分,男性得正一分,红色的是女性的曲线,蓝色的是男性的曲线,我们发现男性在30岁这个阶段主要是跟女性,女性是跟男性是最好的朋友,这可能是他的配偶,伴侣。男性总体来说反映慢一些,女孩子18岁的时候已经和男孩子很亲密互动的时候,男孩还是和男孩玩。这个问题固然好,但是他们又问了"你的第二好友是谁",我们看男性在20岁的时候是男性,然而女性的第二好友往往是男性,但是男性的第二好友已经看不出性别的差异,他们想进一步通过数据来看为什么会这样,于是把数据展开,上面是两个25岁的人,右边是25岁的男性,左边是25岁的女性,红色的代表女性,蓝色的代表男性,他的最好的朋友是女性和是男性的分布情况,两条曲线综合是1,他们发现25岁的男性主要还是和25岁的女性其次是男性,25岁的女性主要和同龄的男性打交道,其次是同性女性。
回头看看50岁就不一样的,左边是50岁的男性我们发现一个现象,50岁的很多都是50岁左右的女性是他最好的朋友,其次才是他的子女,这个对于女孩子来说是好消息。女生就不一样,50岁的女性主要是跟子女,50多岁一个阿姨,主要关注的是他的子女,他的第二个好友很有可能是他的丈夫,所以第二好友往往是男性。那么这些都是我们通过数据得到的,并不定能够带给我们非常大的价值,但是非常的有趣。
最后讲一个例子,这实际上是去年很火的,这篇文章是微软研究院跟剑桥一起做的。他仅仅是表达你对一篇文章、歌、电影是不是喜欢,利用这个信息可以做很多预测,有些是让人很吃惊的,不是说精度很高,大概80%左右,比如说他可以预测这个人是单身还是恋爱,还可以预测你父母是不是离异,包括抽烟喝酒等等,还有预测你是不是同性恋,总体来说男同性恋更好预测,不知道为什么,这些东西非常可怕。我在跟微软在做一个项目,通过看北京同性恋一些酒吧(一个真正的同性恋可以知道很多这样的酒吧),哪些人常去这样的地方,我把大量的数据弄出来,可以做很精确的预测。另外大家玩很多手机游戏,很多游戏比如天天酷跑,本来不用知道我到底在哪里玩,具体怎么玩,仅仅玩这个游戏行为本身,就可以泄露大量的信息,从小了说可以看你是不是一个同性恋,从大了说可以看你是不是在某个军事单位、国防单位,我们通过手机、通过暴露的数据都可以得到。
大数据在当代教育中的应用
大数据在教育方面的革命是要真正做到个性化的教育,这是一个大的趋势。以前的教育很多都是靠经验,不定量,比如说大学现在学校里面管的很严,我们把苍井空老师很多作品封杀了,不允许大学生看,但是实际上苍老师,你看他的片子里都有大学的男生,男生这么多,那他们是不是应该学习一下苍老师的一些著作?这些我们都没有定量化研究就把它封了。我们现在可以通过无线看到你上了哪些网站,我们再把匿名化的东西和匿名化的场景对应起来,我们看一下以前经常上这个网站的人,这个寝室是不是成绩很差,当然这里只能精确到寝室。现在图书馆里面摆了我们老师自以为给同学看的最好的书,其实大部分都是老师自己写的教材,像一些古龙的书一般藏在很隐蔽的角落里,一般都找不到。我们有七年学生借书的数据,这个学生未来的成绩、出处,好的比如说出国了、好公司了,坏的有些确实没有毕业,退学了等等。我们用这个想办法把学生分成不同的等级,然后我们看哪些书在专业上或者在其他方面对学生有帮助,好学生看什么书,坏学生看什么书。所以我们希望所有的东西都变成一个定量化。比如说有些选修课,由于教室的原因,只能选40个人,那么有些教室可以选100个。我们以前只是去看这样的数据就是哪些人成功选了什么课,但是现在不一样,我们把每个点击的数据记录下来,就知道很多学生想选的课没有选上。我们发现有些课只有40个人能选,但是有700个学生选了,那这些课未来是不是可以大量的开。这些都是我们定量化的问题。
第二个是个性化的问题。现在很多远程教育实际上就是工业化课堂教育的延伸,是非个性化的。而我们想把教育变成个性化,比如说一个中学生,我们现在有80多万的题库,一个学生可以自己选,我只出选择题给你做,后面有80多万的题库,那么你做了以后每个知识点的掌握情况怎么样,我尽可能多出你掌握的不好的题库等等,那么你随时就可以看到受教育的情况以及掌握知识点的情况。
国外有很多例子我就不详细讲了,举几个我们做的例子。第一个就是我这里给大家看到的,明年年初会开新闻发布会,让媒体里选四个班,我们来预测这四个班的成绩排名。如果大家只是把前一个学期的成绩直接挪到后一个学期,平均只能达到80%。怎么做,这里面有一个很关键点,就是一个人成绩变坏,不是一天两天变的,比如说我原来很爱学习,现在变成一个游戏狂,即便如此半年一年两次考试,我还能提一提,因为原来成绩好,期末可以熬个夜。所以说这个成绩变坏人的生活模式先变坏,我们可以提前让辅导员知道他出了什么问题,然后找他谈话,那么帮助他。怎么做?我们通过手机,还有一卡通的数据就能分析到很多。我们现在发现和成绩最强关联的是学生打水的数据,因为我们学校对打水有要求,每500毫升开水要花一分钱,你要刷卡,这是避免大家浪费水。就是通过这一分钱打500毫升开水的数据分析,发现打水比较少的人成绩有好有坏,这个不能说明问题。但是打水多的人成绩基本上都比较好,一旦你原来打水很多,现在你突然不怎么打水了,或者打水少了,就出问题了。很多学生真是这个问题,这个是非常强的信号。
还有一个例子是好学生差学生进出寝室数据。好学生七点多的时候就出寝室了,中午不在,晚上10点半回来,非常有规律。这个是一个典型的差学生,他白天不出寝室,下午也不出寝室,但是星期五2点半到星期六12点都不在寝室,这是一个真实的案例。好学生去图书馆,四个多月平均去100多次,差学生去七八次,这些信号都是非常有趣的,可以帮助我们定量化的进行学业的预测。
最后就是管理贫困生。有些学生由于面子的问题,不愿意去街道办事处的办证明,因而申请不到贫困助学贷款。我们发现在电子科大新老校区中餐和晚餐平均一个人是7.13块。如果一个学生连续一个月56顿都在吃食堂,并且每顿不超过4.6块,那么我们让辅导员去他的寝室看一看到底是不是真的很贫困,如果是,征得他个人同意,我们不像外公布名字,每个月给他打200块助学贷款。期末的时候还会统计,有这些助学的人到底是不是生活条件有点提高。我们现在发现提高的有难度,并不是很明显,说明这些人还是很节省。这个我们在想有没有什么办法,让他吃的好一点,这个我们也在思考。第二个就是我们发现有些贫困生他的消费很高,他们还在超市里买很多零食,每顿饭也吃很多,我们都知道,因为我们有一卡通数据。未来我们下学期要进行一些改变,我们要设定一些预值,把一些贫困生资格取消掉。这也是我们要做的,通过这些办法我们想象的是你们要装贫困生,那你也得装的辛苦一点。
今天跟大家有机会聊一聊,是给大家讲一讲大数据在科学教育、在高校这个平台可以做些什么事情,最后谢谢大家。