毕友网

毕友网 > 分享 > 原创 > 周涛原创:用大数据创造新菜

用大数据创造新菜

2014-09-24 14:02:45毕友网 16902


  【毕友导读】本文由电子科技大学互联网科学中心主任、《大数据时代》译者、毕友特邀嘉宾周涛原创。大数据不仅在金融、互联网等领域有着广阔的前景,也为文化研究领域带来了全新的理念和方法论,本文中作者即运用了大数据的方法来分析影响饮食习惯的原因、食谱的结构等,通过这种方法可实现个性化的饮食推荐,还可以用来创造新菜,应用价值巨大。

  对于绝大部分动物来说,吃东西是首要大事,因为这是获取能量最主要的途径。2200多年前,郦食其给刘邦提建议的时候,就特别强调:“王者以民为 天,而民以食为天”,可见吃东西对于人类来说也是第一等的事情。但是,动物吃东西和人吃东西不一样,因为我们不仅要吃进能量,还要吃出花样。所以说,动物 没有文化,而人类有文化,而在人类文化中,饮食文化是一个集中的表现。

  分析饮食习惯对于我们理解人类文化的形成和变迁是有很大帮助的,特别地,我们希望从不同角度出发,去理解地理位置对文化演进的影响,而这种影响又可 以大体上分成两个部分:一是地理相近性所伴随的气候和环境条件的相似性;二是地理相近性带来的交流迁徙的便利性和统治集团的一致性。很多读者能够直观感觉 到气候条件和地理位置对于文化的形成、冲突和演进有很重要的影响,举个例子来说,气候寒冷干旱的时期,北方游牧民族更多与南方的农业社会发生大规模武装冲 突,而正是地理上的相近性,才使得这种接触、冲突和文化消长变得可能。本文将介绍如何把这种直观的感受通过大数据分析的办法用量化的方式进行呈现。

中国美食地图

饮食习惯形成的可能原因

  10多年前,康奈尔大学的Sherman教授通过一些小规模食谱的分析,认为气候是影响我们选择调味品最重要的因素——一则气候本身限制了调味食材的生长(例 如八角主要生长在阴湿、土壤疏松的山地,东北就不易培植),二则气候条件影响我们对调味食材的需求(例如成都湿度大,大家普遍爱吃花椒,因为它散寒除 湿)。这种观点得到了国内一些学者认可,例如西南大学蓝勇教授认为冬季日照数少,湿润而寒冷的气候是四川人选择辛辣口味的主要原因。

  也有一些学者从理论或实际数据分析的角度,对以上结论提出了挑战。例如西南财经大学梁平汉教授通过分析史料,认为历史上四川地区的饮食习惯发生了较 大的变化,因此不能用气候环境来解释,而更可能是因为受到了不同时期柴薪、油料、盐、糖、辣椒等资源的限制。印第安纳大学的Ahn教授分析了多个国家和地 区56498份菜谱,他发现西方和东方的饮食天差地别,西方最爱用的6种食材是牛奶、黄油、香草、鸡蛋、蔗糖浆和小麦,而东方是酱油、葱、香油、米、大豆 和姜。不仅如此,西方的厨师喜欢把有很多共同香料的食材放进同一道菜里面,而东方厨师反对这样。考虑到中国很多省份和欧洲一些国家气候相近,但是饮食偏好 大相径庭,Ahn教授的结论实际上挑战了Sherman教授和蓝勇教授的结论。

距离比气候对饮食习惯影响更大

  我们尝试用“大数据”的办法来分析影响饮食习惯的可能原因。我们从美食圈国内知名网站“美食街”上下载了我国20个菜系共计8498份菜谱,包含了 2911种食材,然后将每一个省、自治区、直辖市和特别行政区都唯一归属于一个菜系。注意,一个菜系可能包括多个行政区,例如四川和重庆都属于川菜。

  我们根据两个食谱中所包含的食材,就可以通过Pearson关联或者余弦相似性来计算两个食谱之间的相似性。需要注意的是,因为有一些食材太过流行 (例如盐),我们必须要削弱它们对于相似性的影响,一种简便可行的方式是把每一个食材看成一个单词,直接利用自然语言分析中成熟的TF-IDF技术[,给 出现特别多的食材一个较低的权重。

  两个菜系在地理距离和气象上的相似性也可以定量刻画。对于前者而言,我们既可以采用两个菜系所在区域最有代表性的两个中心城市之间的球面距离,也可 以用一个节点表示一个菜系,两个接壤的菜系之间连接一条边,然后计算任意两个菜系之间的拓扑距离。对于后者而言,我们可以计算年平均温度序列和年平均湿度 序列之间的平均差异。

  通过对菜系所在省市地理位置和气候条件,以及各菜系所使用的食材的相近性进行关联分析,我们揭示了一个不同于Sherman教授的新场景:“尽管地理上靠近的行政区气候条件往往也相近,但是深入细致的统计分析显示,地理上的相近性对于食材使用的影响远远大于气候的相近性”。这个结果暗示,文化的交融和演进很大程度上可能受到交流的影响,如果没有交流,即便气候条件相近,产生的文化结果也会大不一样。特别地,针对食材使用矩阵(两个维度分别是菜系和食材),通过简单的主成分分析,可以找到两个异常菜系,其食材的使用习惯和其他菜系差异非常大。这两个菜系分别是云贵菜和香港菜,它们所在的行政区位于祖国的边陲,而且在很长时间内其统治集团和文化形态和中国主流有所不同。

结束语

  大数据带给文化分析新的理念和新的方法论。以前绝大多数这方面的研究都是考据和分析,很多结论虽然“看起来很有道理”,但都是定性的,没有得到数据 的定量化支持。产生结论所参考的资料往往也只是很小的一个数据集。目前,随着互联网和大数据技术的发展,我们完全有机会在很大规模的数据集上验证一些重要 结论,甚至发现一些新的结论。把深刻的文化理解力和先进的数据分析能力结合起来,能够给这个精致有趣的研究方向带来全新的未来。进一步地,在这样一个布满吃货的星球上,用大数据的办法分析食谱的结构是很有实际价值的。最近的一些研究显示,这种分析可以用来预测一个在线菜谱是否获得好评,在不改变口味的情况下自动提升菜谱的健康水平,实现个性化的饮食推荐,甚至创造新菜。