知方号

知方号

大数据背景下Python技术在审计工作中的应用<区块链审计职能的五个特征>

大数据背景下Python技术在审计工作中的应用

陈倩倩 彭甜典 张琦

摘要:大数据时代下,云审计、区块链审计、联网审计等各种新型审计方式充斥着我们审计的工作,传统审计方式受到挑战。在审计工作中,快速获得充分、适当的数据信息是提高审计效率和效果的重要保证。文章基于近年来兴起的Python技术,研究其在审计数据搜集与分析中的应用,为大数据审计技术的发展提供支持。

关键词:Python;大数据;分析数据

一、引言

目前,无论是在外部审计还是内部审计中,传统的审计工作方法是我们称之为“七大武器”的观察、检查、询问、分析程序、重新执行、重新计算、函证。审计人员结合自身经验对这七种武器进行巧妙组合,可以很大程度上实现“提供合理保证”这一目标,然而,道高一尺,魔高一丈,随着大数据的发展,审计的对象渐趋复杂,目前,传统审计在数据采集与分析过程中主要存在以下缺陷:传统审计标准难以适用于大数据审计方法的开展;传统审计方法效率和效果难以保证;传统审计方法难以发现系统中存在的漏洞,大数据时代,很多财务舞弊、内控失效都是由于信息系统的缺陷而引发的;大数据背景下,人们不在追求数据的精确度,而是追求数据获取与利用的效率。

二、Python技术的工作原理

(一)Python技术介绍

人们经常把Python和网络爬虫联系在一起,那么什么是网络爬虫?他们之间的关系是什么?如果把互联网比作是由一个个站点和网络设备组成的庞大网络,如果把这张网比作是蜘蛛网,那么在这张网络上,数据便是存放在各个网络上的节点,而爬虫就是一只只小蜘蛛,它们沿着网络路线来获取“数据”猎物。爬虫一般是指网络资源的抓取,因为python的脚本特性,python易于配置,对字符的处理也非常灵活,加上python有丰富的网络抓取模块,所以两者经常联系在一起。

(二)Python技术运行原理

Python技术又称网络机器人、网路蜘蛛,是一种按照规则自动抓取信息的程序或者脚本,当脚本启动后, 爬虫可自动从互联网上标准资源的地址中下载网页内容,随后以匹配的方法从网页中对感兴趣的信息进行抓取,与此同时,爬虫会持续不断地获取新的资源。最终让用户能够获取自己想要的信息。我们以Python爬虫在网页挖掘信息的过程为例。

一个完整的爬虫流程包含三个模块:爬取-解析-存储。

爬取流程控制模块,内容分析提取模块以及网络请求模块。首先在待抓取队列当中放入经过筛选的种子URL,抓取URL后爬取对应的网页,通过 http 向目标站点发出相关的请求,发出的请求未被服务器及时响应,则会获得图片、视频、音频 html 等形式的答复。之后通过数据解析模块对 html 数据进行解析,对网页数据进行分析,提取需要的数据,再将数据传给清洗模块,随后将URL传给调度模块,相关数据会被存储到数据库当中。按照需求,从数据库中对爬虫结果进行读取,通过文字或是图形进行展示。

以上步骤我们可以发现爬虫在获取网页信息数据上功能的强大,若将此利用于被审计单位的数据库,通过爬虫提取发票、原始凭证、合同等信息,可以保证公司各项财务会计数据的真实性。也能够对公司自身数据以及行业相关企业数据进行相应审计对比,对数据真实性 判断提出合理性建议。

(三)Python技术的优点

相对于其它网络爬虫技术,Python的网络爬虫技术具有以下优点。

除了Python和R,还有各种各样非常强大的商业数据分析软件。但是,与这些商业产品相比,Python具有以下优势。

1. Python的开源许可证(与GPL兼容,但是您可以发布修改后的版本而无需将更改设为开源)意味着可以免费使用它。Python语法简单清晰,容易学习掌握。另一方面,商业软件包带有许可限制,并且相关的成本因素通常会限制组织中少数员工的可用性。

2. 与许多商业数据分析软件不同,Python甚至可以在低规格的台式计算机上使用,使其适用于大规模部署,而无需在硬件上进行额外投资。用本机Python编写的数据分析代码也可以用于支持Python的多个计算平台和操作系统(例如Windows,Linux和MacOS)。

3. 大多数(如果不是全部的话)商业数据分析软件都是为交互使用而设计的,通常使它们不适合实施完全自动化和可重用的数据分析解决方案。另一方面,Python代码可用于完全自动化整个数据分析过程,并且还可以不受限制地进行分发和重用。

4. 世界范围内的Python社区正在不断为其丰富的功能集添加新的软件包和功能。由于社区支持的规模,来自学术界和研究机构的新数据分析技术也比免费提供的Python版本更快地免费提供。

5. 有许多专门讨论Python知识共享的在线讨论论坛。 PyData会议还提供了宝贵的渠道,用于交换有关数据管理,处理,分析和可视化的新方法和新兴开源技术的信息。 PyData会议记录的录像在YouTube上免费提供。

三、Python技术应用案例

案例一:以德勤会计师事务所为例:2018年,作为四大会计师事务所之一的德勤会计师事务所在审计一家银行时,利用网络爬虫Python技术对该银行近2万个对公贷款客户进行数据搜集,获取了包括工商、司法、舆情、征信、税务在内的17类专项数据。传统审计方法一般只能通过一些数据查询网站(比如:天眼查、企业查查等)进行数据查询与搜集。但在该案例中,需要对近20万个客户展开调查,需要花费审计人员大量的时间和精力,如何批量查询相关数据成为困扰审计人员的问题。网络爬虫可以在短时间内通过铺设路径和逻辑,快速进行网络抓取。

在分析数据时,德勤事务所将搜集到的数据与行内客户历史交易、业务办理信息等内部数据系统打通整合,最终形成了客户关联关系、资金往来关系、业务办理信息、外部风险信息4大维度的客户全景画像。德勤风险咨询将这2万个对公客户的信贷申请资料与其全景画像执行关联分析、交叉检验等验证,最终发现了36个客户涉及虚报财务信息、刻意隐瞒负面信息等虚假行为。借助网络爬虫技术,不仅在数据获取上提高了审计的效率,更在审计上提高了完整性。

案例二:A市X会计师事务所在审计一家主营话费充值业务的企业时。其收入来源为每一笔手机充值业务提取的服务费。其客户就是每一个手机号码的个体,面对海量的客户,甚至传统意义上客商的概念都没有了。其中审计工作的一部分就是核查手机用户的真实性。需要在联通、电信、移动的官网上进行号码查询、验证其真实性。在这种情况下,审计师无法利用传统的询证法发函证,也无法取得客户真实性的信息。于是X会计师事务所借助网络爬虫技术,快速获取到了客户的全部信息。

案例三:2018年B市审计局派出审计小组对某预算执行审计项目进行审计。为充分了解某片区住房的空置率问题,审计人员从自来水公司采集了相关片区房屋的年度用水情况数据。针对审计数据中存在的水费数据零散、傳统方法不便汇总的问题,审计组积极探索新技术、新手段,特邀请计算机审计科的技术人员协助解决。相关技术人员在认真分析数据特征和审计业务要求后,利用Python开发语言开发了“水费数据分析小程序”,实现快速进行数据汇总,并生成审计疑点数据,由审计组有针对性地进行现场核实,大大提高了审计的工作效率。

四、结语

大数据的运用是未来趋势。与以往的审计模式不同,Python技术大大提高了数据搜集的效率和完整性。将验证性分析变为了挖掘性分析,弥补了审计抽样无法搜集全部数据的缺陷。并将审计方式从事后补救转向全过程防御,尤其关注事前防御,有助于在风险发生之前就做好预测与判断。但Python在运行过程中也存在编写复杂、代码不能加密、执行速度不够快等缺点。

参考文献:

[1]李玉香,王孟玉,涂宇晰.基于python的网络爬虫技术研究[J].信息技术与信息化,2023(12):143-145.

[2]谢克武.大数据环境下基于python的网络爬虫技术[J].电子制作,2017(09):44-45.

[3]陈伟.大数据环境下基于模糊匹配的审计方法[J].中国注册会计师,2016(11):84-88+3.

(作者单位:南京理工大学泰州科技学院)

猜你喜欢大数据大数据环境下基于移动客户端的传统媒体转型思路新闻世界(2016年10期)2016-10-11基于大数据背景下的智慧城市建设研究科技视界(2016年20期)2016-09-29数据+舆情:南方报业创新转型提高服务能力的探索中国记者(2016年6期)2016-08-26

中国集体经济2023年4期

中国集体经济的其它文章农民专业合作社发展存在的问题及对策建议乡村振兴战略下农业发展新动能问题探讨新脱贫地区农村信用体系建设助推乡村振兴战略的实践与思考养老保障对农户农地承包经营权退出行为影响的质性分析“中国制造2025”背景下制造业转型升级路径选择改革开放以来我国汽车产业发展回眸与展望

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至lizi9903@foxmail.com举报,一经查实,本站将立刻删除。