大数据成为可靠的决策依据,其威力主要在于相关关系的分析,只是在海量数据中找到相关关系并不容易,对业务人员来说尤其如此。但是图或者图表可以让从业者在很短时间内抓住关键信息,因而可视化是数据科学工作中不可忽视的一项任务,甚至是大数据变现的关键。可视化专家、Teradata天睿公司大中华区大数据事业部华东区高级顾问张玉瑞通过银行、汽车金融、房地产金融领域的三个案例,向CSDN记者展示了最新的可视化技术,以及实现高质量可视化的技巧。
张玉瑞展示的第一个案例,是银行行业的“资金喷泉”,图中所用的数据来自中国某家银行的上游的情况。“资金喷泉”体现的是公司客户之间资金的流向,可以展现出公司之间的供应链、上下游关系,以及可能存在异常的交易或者欺诈。
银行可以从每天海量的交易里找到一些核心企业的上下游公司来做供应链金融,包括围绕运营状况良好的核心企业提供服务。但从风险监控的角度看,如果银行给客户贷款后,资金流到不该流入的地方——例如它申请贷款是用于生产经营,后来流到哪一个证券公司或哪个P2P公司买理财产品——这就是资金流动异常,需要高度关注。
“资金喷泉”图中每一个点就是每一个公司的账户,线条代表相应的资金交易,粗细代表交易金额的大小,线的箭头标识代表资金流向,相同源头公司的流水以相同颜色表示。这样就很容易看出其中的层次关系。如果某公司重要的上游或下游企业出现资金链断裂的情况,可能该公司相应的评级就要做相应的调整。
“资金喷泉”也可以用来做营销。比如和某公司有业务往来的都是外行的客户,那就要小心这个公司会被别的银行给挖去。如果大部分都是本行的,外行的只有一部分,那就很容易把这部分外行的客户争取进来。
对于交易涵盖的时间段和量,张玉瑞表示,一般是以一年为周期,有的行业是有季节特征的,比如有的行业年初是要采购原材料,年中制造,年底销售。像零售类的可能现金流比较平稳一点,但是还是有周期的。
当谈到如何选择数据源时,张玉瑞表示,要根据不同的业务场景应用来决定。如果要做一个客户流失的分析,要找到以前的行为数据建一个预测模型;如果要看网络日志的分析,要到网站上去抓取相应的网络日志的信息。一般来说,企业内部的数据是交易数据,质量相对比较高;外部的数据,比如Hadoop廉价系统存储的海量数据,可能价值就比较低。基本上是以内部数据为主,外部数据为辅,因为外部数据还要购买,质量等各方面还会有问题。
“担保圈焰火”展现的是某家银行的汽车厂商、4S店和个人客户之间建立的担保关系网络,通过这种可视化分析识别汽车骗贷行为。
一些4S店会有贷款欺诈,通过一车多贷或者虚构贷款来获得一些资金。图像中这个最大的黄色辐射状焰火是比较正常的,中间的点是4S店,周围的都是一些个人客户,一对一的,比较正常的——汽车服务公司担保,银行发放贷款给每个人,这是比较正常的。
不太正常的是右下角两个焰火,中心点两个以上,这些中心点是汽车服务公司,而且他们担保的个人大部分都是重叠的,很可能存在着一车多贷的现象。每个线就是一个汽车贷款的金额,从每笔贷款看这个人还款能力没有问题,看各方面资质,他的收入能够覆盖到,但是如果结合起来整体来看,问题就会发现了。一车多贷,将来如果违约,抵押物根本赔偿不了损失。
”担保圈之谜”揭示了房地产开发行业所产生的潜在风险。图中每个辐射源是房地产公司,辐射点是个人客户。这些业务在北上深,不太可能出现,因为房子供不应求,基本上是卖方市场。但在一些三四线城市,房地产公司联合银行,购房者买房的首付可以一两年内凑齐,买房的时候可以零首付或者一两成首付,吸引购房者。还有一种情况,有的房地产公司出现现金流紧张,而房子还在建设当中,需要持续的资金投入,由于行情不好,期房很难卖出去,房地产公司可能会铤而走险,做一些虚假按揭,然后从银行借到资金,缓解资金压力。
最近央行和银监局要求银行打压首付贷,说明中央对房贷的加杠杆高度关注。房贷本来是银行优质的资产,如果购房者或者炒房者变成一两成首付或者零首付,杠杆就会陡增,风险就会放大。通过担保圈之谜,银行可以更好地监控房贷风险,防患于未然。
张玉瑞认为,除了让决策者和业务人员从大数据中快速发现有价值的信息,可视化对模型优化同样重要。他表示,大数据分析是快速迭代、不断试错的过程,需要反复调试、调优才能得到最后的结果,中间需要经过一些数据的清洗、业务的确认,大数据环境下借助图表的形式能够更好地做模型调优,所以可视化和模型建模都很重要,没法拆分。
他进一步表示,好的可视化应当人性化、优雅、易于理解、容易被人接受,有适当的交互性,同时易于使用,尽量降低对操作人员的IT技能需求。
例如,上述案例中,除了容易理解的颜色、线条方向,图也是可以互动的,把鼠标放上去,可以进一步看到它所属行业、规模、银行存款有。如果把它的名字都显示了,每个线有具体金额可以标上去的。即可以聚焦到某一个上面,当点击后,就能看具体某一个小的社区的详细情况。
那么,实现上述可视化效果,需要什么技术门槛?张玉瑞介绍,这些案例都是用是Teradata Aster实现的,Aster语言极为接近SQL语句,很容易上手,而一些开源的工具要求使用Java、Python、R或者JavaScript等语言实现,对使用人员的要求更高。此外,Aster还提供了内置的算法,可以直接调用。
谈到分析、建模过程中的关键技术,张玉瑞提到了三点:
传统做分析可以做采样,但是像资金链、担保圈、社交圈分析,是一个庞大的复杂的整体网络,没法抽样,否则会把一些关系切断。所有数据的分析,有些算法计算量非常大,需要精确度高、计算速度快的算法。Aster图分析(社交媒体分析)算法里就有PageRank算法,通过它来找出网络中有重要影响力的客户。
每个企业的客户都很多,业务人员需要从海量数据中抓住主要问题所在。例如前面的资金链和担保圈分析,只挑其中比较重要(主要的风险点)的客户来分析。
社群的划分也是很重要的技术。归到哪一群,背后是有算法和大量的计算来支撑。
关于:中科研拓
深圳市中科研拓科技有限公司专注提供软件外包、app开发、智能硬件开发、O2O电商平台、手机应用程序、大数据系统、物联网项目等开发外包服务,十年研发经验,上百成功案例,中科院软件外包合作企业。通过IT技术实现创造客户和社会的价值,致力于为用户提供很好的软件解决方案。联系电话400-0316-532,邮箱sales@zhongkerd.com,网址www.zhongkerd.com