浅析数据库技术在审计项目中的应用
朱立辉 马艳飞 (审计署昆明办)
【发布时间:2013年07月16日】
字号:【大】 【中】 【小】
    
     【摘  要】本文分析了目前审计项目数据库环境的多样性,数据涉及单位多、部门广,数据存储分散,数据量大的数据环境,提出了审计项目中主要应用的数据传输、游标、索引等数据库技术解决以上数据环境造成的问题,并提出了数据分析的主要模式。
    
    【关键词】数据库技术 审计项目 应用
    刘家义审计长在中国审计学会第三次理事论坛上的讲话指出,“要把信息化作为审计的重要手段,解决好‘靠什么审计’问题……从一定意义上讲,中国审计的出路在信息化,信息化的关键在于数字化。在审计工作中,必须用数字化带动信息化,用信息化推动审计技术方法创新,增强在信息化环境下查错纠弊、打击犯罪、规范管理的能力”。这一论断要求在审计工作中要充分利用信息化的技术方法开展审计工作,目前,审计项目主体都是在数字化环境下开展,面临的数字化环境都是数据库环境,对数据库技术的运用能力直接影响审计项目的开展。
    
    一、审计项目数据环境的特点
    
    一是数据库环境的多样性。审计工作的特点决定了审计对象的多样性,既有行政事业单位,也有国有企业单位,还有项目建设单位,涉及的领域涵盖财政、金融、企业、投资、社保等,由于各单位和各行业的业务特点,选择的数据库也不尽相同,审计项目中常遇到ORACLE、SQL SERVER、DB2、SYBASE等不同后台数据库。
    二是所需的数据涉及单位多、部门广。在审计项目中,金融、企业等审计项目由于其分公司、子公司数量多,在采集数据时涉及的单位相对也多。而像社会保障资金审计项目,除涉及各级地方政府以及人力资源社会保障、民政、财政、卫生、残联、地税等社会保险经办机构外,还需要延伸房管局、车管所、公安、工商、公积金管理、银行等与社保资金保障对象相关的部门或单位,则数据涉及的部门广。
    三是数据存储分散。目前由于各单位信息系统建设大多采取分步实施、逐步推进的方式,加上业务职能的分工,各单位信息系统功能只涵盖本单位职能的要求,除金融、海关等少数单位外,往往造成数据存储分散,如各项社保资金的管理因职能分工、地区、时间、统筹级次等方面的差异,数据分散存放在不同的部门或单位,基本养老、基本医疗、失业、工伤、生育保险基金的数据存储在社会保险部门,低保数据存储在民政部门,新型农村合作医疗的数据存储在卫生部门。
    四是数据量大。审计工作的基本工作方式要求是“全面审计,突出重点”,全面审计的基础是要充分占有数据并对数据加以分析,从占有数据的角度纵向上尽可能取得多个时间段的数据,从横向上尽可能取得审计内容涉及的多方面的数据。如社会保障资金审计涉及基本养老、基本医疗等12类18项资金。审计的时间跨度涉及2005年至2011年,跨度共7年。
    
    二、运用的主要数据库技术  
    
    针对审计项目数据库环境的多样性,数据涉及单位多、部门广,数据存储分散,数据量大的数据环境,为充分提高审计效率,发挥信息技术在审计项目中的作用,笔者积极探索相关数据库技术的应用,解决了审计项目中的相关问题。
    (一)利用数据库数据传输技术,实现数据库版本的完整统一,解决数据库环境的多样性问题。审计人员与被审计单位数据库管理员对数据库技术的把握最大区别在于,审计人员在专的基础上还要求博,当前审计人员较熟悉的是SQL SERVER数据库系统,被审计单位数据库管理员则要求对所用数据库技术的专,因此在同一审计项目中涉及ORACLE、SQL SERVER、DB2、SYBASE等不同后台数据库系统时,通常将数据采集成标准的SQL SERVER数据表后,再利用SQL SERVER 2005版和2008R2版进行存储。由于SQL SERVER数据库版本不统一,要将采集到的标准表数据存放在统一版本的SQL SERVER数据库环境下,并可通过两类方式处理。其一,先编写脚本将同一单位的不同数据库予以自动汇总,再在同一台电脑上同时安装SQL SERVER 2005、SQL SERVER 2008R2版本,将SQL SERVER 2008R2汇总数据库通过DTS方式导入至SQL SERVER 2005数据库;其二,搭建局域网环境,将其中一台电脑的数据库版本安装SQL SERVER 2008版本,其他电脑安装SQL SERVER 2008R2版本,并与该电脑连接,通过数据库DTS方式将数据传输到SQL SERVER 2008版本,达到数据库版本的统一。
    (二)利用数据库游标技术,提高数据汇总的效率,解决数据涉及单位多、部门广的问题。游标是系统为用户开设的数据缓冲区,用于存放SQL语句的执行结果。游标提供了一种对从表中检索出的数据进行操作的灵活手段,就本质而言实际上是一种能从包括多条数据记录的结果集中每次提取一条记录的机制。游标总是与一条SQL 选择语句相关联,因为游标由结果集(可以是零条、一条或由相关的选择语句检索出的多条记录)和结果集中指向特定记录的游标位置组成。对从多部门、多单位采集到的数据,要将这些数据按要求汇总到相应数据库中时,可充分利用游标技术。如在社会保障资金审计中按预先的数据采集方案采集到的标准数据库多,最终又要按州市将采集到的标准表数据进行汇总,每一州市汇总数据库中又分为人力资源社会保障、民政、地税、卫生部门的数据,这就要把原来分散在不同数据库中的同一州市的数据经过抽取、汇集存放在同一州市数据库中,通过游标的定位,可以逐个读取每一个数据库中的每一张表,将符合条件的数据抽取出来存放到指定的表中,完成对分散存储数据的汇总工作,提高数据汇总的效率。
    (三)利用数据库索引技术,提高数据分析的效率,解决大数据量的分析问题。将创建索引的表进行关联分析,可以加速表和表之间的连接,达到加快检索表中数据的效果,提高数据分析效率。在数据分析阶段,针对数据量大、数据分析操作频繁,通常是进行表之间的关联分析,用于分析的数据表数据记录数都较多的特点,对需要分析的数据表选取关键字段建立索引。如在社会保障资金审计,需要分析涉及个人的大量信息,因此,通常将个人编号或个人身份证号建立索引,提高分析效率。
    (四)利用数据库算法技术,提高分析结果的准确率,解决数据存储分散的问题。随着,审计项目信息化程度的提高数据环境的改善,数据分析已超出单一维度分析的范畴,需要融合相关数据进行对比分析。在社保资金审计中,需要对个人的参保信息进行分析,同时要将个人参保信息与房产、车辆等外围数据进行分析,因此身份证号是定位个人信息的关键字段。由于不同系统、或同一系统不同时间段的数据中,存在身份证号15位和18位不统一的情况,如果进行身份证号的全等比较,将造成数据结果的不准确,会造成筛选数据结果的遗漏。在数据分析阶段,昆明办根据身份证编码规律,采取分段比较方式,将身份证号码前6位进行比较,如果相等,再从15位身份证号码中的第7位开始、从18位身份证号码中的第9位开始,取9位进行对比,如果比较结果相一致,再进一步比较姓名,通过改进算法提高了分析结果的准确率。
    
    三、数据分析的主要方式
    
    在引用以上数据库技术的基础上,在审计项目中采取“三种模式”,开展审计数据分析工作。一是使用“数据分析引领数据需求”的主动采集数据模式。对审计项目可能存在的问题进行充分预估,按照“全面分析内容、突出重点事项”原则,选择突出的问题作为重点,反向推演数据分析过程,推导出重点数据需求,从相关单位和部门获取审计所需的数据,为数据分析打下了良好基础。二是使用“数据预分析验证审计思路”的数据分析模式。由数据分析组运用多维数据分析、数据挖掘等技术进行数据预分析,并将预分析线索发给审计组,各相关审计组再将问题是否存在、下一步数据分析需求等情况及时反馈给数据分析组,最终形成数据分析思路。三是使用“分析结果引领现场审计”的现场工作模式。数据分析组一方面将数据分析结果交给相关审计组直接作为审计线索进行延伸,另一方面将SQL脚本、数据分析经验发给其他审计组,其他审计组只需将SQL脚本拷贝到SQL SERVER查询分析器,就能进行数据分析,实现了“一组分析、各组共享”,提高了数据分析的效用效果。(朱立辉  马艳飞)
     
【关闭】    【打印】