知方号

知方号

智慧审计的七种武器之复杂数据分析

数据采集:复杂数据分析的数据源可以是传统的内部数据库也可以是来自网络上的外部数据。内部数据采集可使用SQL将内部关系型数据库中的数据提取出来,或使用NoSQL将分布的、异构数据源中的数据文件如图片、文本等抽取出来。外部数据采集通常会用到网络爬虫技术,从web中获取所需的海量数据,如政府、研究机构或新闻网站上发布的信息等。数据获取后,对其进行清洗、转换、集成,最后加载到数据仓库或数据集市中使用。

数据处理:由于复杂数据分析所面对的数据通常体量巨大且形式多样,一般需要使用到更高性能的计算架构和存储系统。例如在处理用户app浏览记录等体量巨大的数据时使用分布式计算的MapReduce、Spark计算框架可以提升计算能力应对更复杂的数据并减少数据处理时间,使用分布式文件存储HDFS进行大规模数据协同工作来提升数据的吞吐能力和速度。针对非结构化的数据,往往需要对数据进行深入的理解,并通过复杂数据分析将结构多样、语义多样的非结构化数据进行结构化处理,提取出可以直接进行分析的数据。例如针对半结构化数据使用数据抽取(Information Extraction)和处理非结构化数据的自然语言处理。

统计分析:统计分析是复杂数据分析的常规武器,运用统计方法进行定性和定量的分析,对研究对象产生更为深刻的认识。主要的分析技术包括:

假设检验(Hypothesis Test)来推断假设是否成立显著性检验(Significance Test)来检验变量对目标的影响程度相关分析(Correlation Analysis)来分析变量之间的关系T检验(T Test)来比较两组数据是否存在显著差异其他统计分析方法,如方差分析(ANOVA)等。 

数据建模:数据建模是复杂数据分析的核心技术,能从大量数据中通过算法搜索隐藏于其中的信息。主要的算法包括 分类 (Classification)、聚类(Clustering)、预测(Prediction)、估计(Estimation)和复杂数据类型挖掘(text、Web、图形图像、视频、音频等)等,数据建模可基于用户行为数据实现对人群特征的分类、根据历史数据预测行业走势和基于对海量的图片深度学习做到对图形图像的识别。

3. 实战

近年来,银行的小额贷款业务发展迅猛,无论是小微企业贷款还是个人小额贷款都呈现出井喷式增长。面对快速增长的业务量,银行内部审计面临不小的压力,若按传统贷款审查流程对小额贷款进行全面检查,内部审计工作量不可承受且效益低下,若采用抽样审计,往往又容易以偏概全,存在较高的检查风险。

某概念验证 (Proof of Concept)案例:为了对小额贷款业务进行有效的审查,某银行内审部引入了复杂数据分析手段来应对 大量的小额信贷审计工作。 通过搭建统一、共享的内部审计数据平台,广泛采集客户的各类数据,将银行内部生产环境中获取的小额贷款相关的“一手”业务信息和网络爬虫在互联网上爬取到的客户个体和组织相关信息进行交叉对比核实,形成完整真实的客户信息和行为。通过对用户信息的分析和挖掘,对历史逾期、账户资金流动、个人征信、客户信用风险等级等特征打上标记。将整理好的数据切分为训练数据集和测试数据集。在训练数据中,把发生过违约的人群作为目标建立机器学习模型,分析每个用户特征对判断客户信用资质和信用风险高低的影响,找出高风险企业的特征,持续调整优化模型,提高模型准确率,并使用测试数据验证模型。通过使用机器学习模型发现小微信贷中隐藏的规律、规则和趋势,从而达到总结过去预测未来的效果,给小微信贷业务的风险防控提供有价值的内部审计建议。

 

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。

上一篇 没有了

下一篇没有了