毕友网 > 金融 > 大数据征信 > 金融探索之大数据征信：大数据将怎样改变征信领域？

金融探索之大数据征信：大数据将怎样改变征信领域？

2016-06-28 21:33:18小毕 13441

　　毕友一言：

　　美是永生不灭的，困苦的生活也无法扼杀它，它会在那些沉思冥想的人的心田里茁壮成长。——赛珍珠

金融探索之大数据征信：大数据将怎样改变征信领域？

　　大数据将怎样改变征信领域？

　　数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。亚马逊前任首席科学家AndreasWeigend将数据比喻成新的石油。我国的数据应用资源也正和土地、劳动力、资本等生产要素一样，成为促进中国经济稳定增长的基本要素。

　　大数据的核心在于数据的交叉与流动。目前，我国互联网、移动互联网用户规模居全球第一，拥有丰富的数据资源和应用市场优势，大数据部分关键技术研发取得突破，涌现出一批互联网创新企业和创新应用。可是，数据之间的交叉融合非常少，信用数据源的割裂是当前影响我国大数据应用和拓展的主要障碍。

　　对于P2P行业来说，大数据在征信领域作用重大，对P2P平台的核心竞争力是一大考验，国内外都有一些企业正在从事大数据征信的研发、实验乃至实践工作。值得关注的是，目前国内金融行业中成功运用大数据做风控的企业，只有阿里小贷等少数几家。他们主要是通过卖家累计的海量交易信息及资金流水，在几秒内完成对商家的授信。在数据征信领域还是存在很多问题，利用大数据进行风险控制任重而道远。

　　依赖大数据风控主要靠及时更新的数据和对客户的约束力来实现其有效性，这两个因素也被称为“闭环数据”。尽管年初央行同意8家个人征信机构进行数据的收集，但由于数据库往往涉及平台的核心竞争力，在没有建立起相应的激励机制的情况下，大多不愿意共享。

　　另一方面，P2P行业的信用数据获取渠道极其有限，个人信用数据部分依靠借款用户自行提交，部分依靠平台上门征集，对借款主体的信用数据征集工作占据了P2P网贷平台的大量人力物力，造成了一定的运营成本压力和管理压力。

　　美国利用数据进行征信的发展历程与其背后的逻辑对于我国发展征信行业具有一定的借鉴意义。美国信用局协会（CDIA）制定了用于个人征信业务的统一标准数据报告格式和标准数据采集格式，且正在将美国征信数据的标准推广至其他国家，以促进征信体系的全球化发展。除金融相关数据外，电商、电信业、零售业的数据也正在纳入征信体系。

　　美国征信市场的特点可以用12字概括：专业分工、边界清晰、各司其职。整个征信体系分为机构征信和个人征信，其中机构征信又分为资本市场信用和普通企业信用。个人征信方面，先由美国三大征信局益百利（Experian）、爱克菲（Equifax）美国环联（TransUnion）进行数据处理，然后再由FICOScore和VantageScore等评分机构进行信用评级，最后应用到实际的金融环境之中，已形成一条成熟的核心产业链。

　　另外，美国通过立法和行业共识，其数据征信体系也形成了相对统一的标准。以“个人征信”为例，其内涵由“5C1S”定义：品德（Character）、能力（Capability）、资本（Capital）、条件（Condition）、担保品（Collatera）、稳定性（Stability）。同时，信用的边界也得到了明确的刻画，即对于用来量化信用的数据基础形成了共识。

　　从历史发展路径来看，美国的大数据征信也是先经历了野蛮生长，然后理智整合。在这个过程中，应用场景的拓展、技术的进步和法律法规的完善起到了关键性的推动作用。由于我国利用大数据进行征信还处于初级阶段，央行授权开展个人征信业务的8家征信机构也没有形成成熟的产业闭环，如何协调相关的征信机构与数据源机构，使得基本的信用信息能够共享，这需要两类机构之间互相合作与博弈，也需要政府层面能够做出适当引导，以便早日打破僵局。

　　令人欣喜的是，加快大数据部署，深化大数据应用，已成为稳定我国经济增长的内在需要和必然选择。国务院印发的《促进大数据发展行动纲要》中，最引人注目的就是开放政府数据和推动产业创新。这是我国第一次把发展大数据上升为国家战略，对推进落实“中国制造2025”和“互联网+”国家战略、促进大众创业、万众创新，推动经济和社会发展具有重要意义。

　　大数据带来的新服务模式和资源分析处理能力，将带动产业技术研发体系的创新，推动跨领域、跨行业的融合和协同创新，在促进新兴产业快速发展的同时带动传统产业的协同发展，为建设国内信用社会、行业创新提供有力支撑，重塑国家竞争优势。

　　大数据助力金融风控

　　市场契机：2015年中国人民银行开放8家个人征信公司试运营，为正式下发个人征信牌照做准备工作。个人征信公司的起步，丰富了大数据的种类和来源。

　　市场现状：目前应用比较成熟多见的金融大数据包括“征信及验证数据”（政府，行业信息互通共享）

　　传统金融数据：银联卡线下消费行为，目前也涌现出了用手机号匹配个人金融行为全画像的产品

　　互联网大数据：主要采用互联技术采集客户行为，在客户多重授权下，获取手机通信记录、线上购物支付画像以及学历学位等信息。

　　解决了这些痛点：贷款联系人的真实性——现在可以通过手机通信记录中与联系人的通信频次、网上购物送货人记录、线上支付转账收款人记录等维度，进行很大比例上的自动判断，无需每个联系人都一一电话照会，通过交叉问题试探真实性。客户家庭住址、工作地址等信息的真实性，也可以此类数据作为辅助判断的依据，只有对用数据判断不准的部分客户，才酌情需要人工参与。

　　另外，将线上消费、支付行为与线下银行卡消费信息相结合，才能越来越全面地衡量现代人的金融需求、还款能力以及还款意愿等，才能制定出更反应“互联网+”时代特征的个人金融风险政策。

　　非面签服务中身份验证——伪冒身份证对于不要求面签的新兴金融服务业而言，一直是反欺诈中的痛点。骗贷份子通过购买他人身份信息，配以自己的照片伪造假身份证，在不配备二代身份证刷卡器的场合进行欺诈。人脸识别技术可以自动抓取身份证照片中的人像，与公安部档案中的该身份证存档照片进行自动相似度比对，用不需要人工介入的方式把绝大部分真实和不真实的身份证鉴别出来。

　　客户位置真实性风控——自填居住地址和工作地址对于贷款风控而言也是一大痛点。实地调查成本高企，且效率低下，一般只有大额贷款才会用到。对于小微金额，可以采用地址搜索技术获取客户自填居住或工作地址的大致经纬度。

　　地理信息技术引入与其在使用某些互联网产品时留下的常见位置经纬度相比较，可以得出客户自填居住或工作地址的置信度。

　　如何利用大数据建立金融风控模型

　　简单地说，如果数据是原材料的话，建模就相当于厨师的工作。

　　之前介绍了很多大数据征信、互联网技术背景下，能提供到新兴金融服务业做风险识别的大数据。但是要真正用好这些多维度的大数据，还需要风险建模技术，或者更广义一些——机器学习技术。

　　机器学习技术是指，从历史数据的已知信用好坏客户分类人群中，学习好坏客户的特点和行为模式，并用数据模型表达出来，供实际生产中的新业务，做贷前风险评估和预测。

　　机器学习建模基于两点假设：

　　1、历史经验是值得学习的，即历史中发生过、存在过的因果关系，在未来还有相当的借鉴意义和参考价值；

　　2、历史经验中发生过、存在过的因果关系，是可以用数学模型被主要地描述出来的。

　　从这一点也可以看出，学习建模有点以史为鉴的意思。如果你不相信历史事件会重复，那就没有建模的必要。但如果你相信历史事件会百分之百的被复制，那么你的模型就一定是错的。

　　大数据征信：数据源的量与度是关键

　　随着互联网的发展，大数据征信已被越来越多地运用到金融领域，互联网金融平台利用大数据判断用户的信用记录是否良好，从而授予用户相应的信贷额度。传统银行也在加紧布局大数据网络，试图与互联网平台接轨。

　　与传统信用评估模型不同的是，传统的信用评估是根据一个人的借贷历史和还款表现，通过逻辑回归的方式来判断这个人的信用情况，而大数据征信的数据源则十分广泛，电子商务、社交网络和搜索行为等都产生了大量的数据，在如此海量的数据面前，如何把控数据源的“量”与“度”是互联网平台和传统金融机构需要重视并解决的问题。如今一切信息皆可以成为信用数据，经过分析后用于证明一个人或企业的信用状况。

　　大数据的“量”是指：有多少个体在被分析，每一个网上注册账号的个体都可以成为被分析的对象。

　　数据源的“度”是指：被分析的个体都有哪些方面能够成为可以参考的数据。

　　有很多人认为数据能够被称为“大数据”需具备两个因素：第一要覆盖面广，用户足够多;第二维度广，要从一个人行为的方方面面反映个体的行为与信用的关系。但是，事实并非如此，数据的“量”与“度”也应严格加以控制。

　　把控大数据的“量”关键在于从大量的数据之中筛选出“有效用户”。无论是在传统金融领域，还是互联网金融领域，给客户做信用评估的前提是必须知道这个人就是他自己。所以，如何证明“你是你”是大数据征信首先要解决的问题。然而现实的情况是：一个人可以同时申请多个账号，多个人在知道账户信息的条件下也可以同时使用一个账号。在这样的情况下数据信息往往有所重叠。因此，数据的体量大并不代表数据更加可靠。

　　随着越来越多的金融业务互联网化，“反欺诈”面临的挑战也日益增大。“身份认证”的重要性在各项监管文件中反复被强调，而各家机构也在不断探索如何利用新的技术在网上实现身份的核实。金融机构在重视数据量的同时还可运用先进的科学技术手段，如指纹、虹膜、人脸识别等一系列生物识别技术，将大量的无效信息排除在外，同时也能够抵御数据造假所带来的信用风险。

　　对数据源“度”的有效性进行控制也是金融平台和金融机构需要考虑的问题。社交软件在数据量上有着非常明显的优势，许多社交软件常常从用户行为上分析判断一个人的信用是否良好，这就有可能出现“分析过度”的情况。

　　在一些大数据征信的文章中，一些案例是这样分析个人行为和信用评分的关系的：经常半夜上网的用户可能被认为没有稳定的工作而降低信用评分，购买大件家具的用户可能提示有固定房屋资产而使其信用评分较高，微博更新频繁的用户可能因为社交活跃而信用评分较高等等。但这些因素并不十分稳定且准确，有些行为可能只是用户的个人习惯，如果过度依赖这些因素将对用户信用的判断产生误差。因此，哪些行为可以成为判断个人信用的标准需要考量。

　　因此，大数据能够成为金融机构的征信参考标准并不一定要求数据量大、数据的维度多，数据的有效性高、数据更能反映问题才能让征信更加全面、可靠。

　　图文来源：数据观、凤凰财经、网络等，毕友志愿者钟永智综合整理。