网上审计数据中心解决方案——数据仓库
侯绍林 (审计署京津冀特派办)
【发布时间:2010年12月23日】
字号:【大】 【中】 【小】
     网上审计的产生既是客观环境发展的外部要求,也是审计“免疫系统”本质的内在要求。进入21世纪以来,世界各国的政府审计部门都在网上审计方面作出了有益的尝试和探索,但是由于缺乏丰富的实践积累和系统的理论指导,网上审计的发展受到了技术瓶颈的严重制约。如何构建结构稳定、信息丰富、更新及时的网上审计数据中心成为首先要面对的一个技术难题。
    网上审计中,审计人员取得的绝大部分审计资料都是电子数据。不论是被审计单位的财务核算信息、业务管理信息,还是经营决策信息,都记录在这些电子数据之中。我们要对被审计单位财政财务收支的真实合法效益进行审查,就必须直接对取得的电子数据进行审计,这一点就如同我们在手工审计阶段,必须对取得的账簿、报表和凭证进行审计一样。然而,网上审计中我们取得的电子数据通常是实时的、海量的、零散的和类型不统一的,但这些电子数据之间却存在着一定的联系。我们在网上审计中不能孤立或者割裂地来利用这些数据,而是要尽力地去统一相同类型数据的格式,寻找数据之间的关联关系,把他们作为一种资源很好地组织起来加以综合利用。数据仓库为我们提供了这样一种解决方案。
    网上审计中,数据仓库的运用是一个连续的过程,形成了一个有机的系统即数据仓库系统。网上审计中我们构建并利用的数据仓库系统分为数据源、数据的存储与管理、OLAP服务器和前端工具四个层次:
    一、数据源
    数据源是数据仓库系统的基础。网上审计中,按照数据源的不同类型可以把数据分为数值型数据和非数值型数据两种。其中,数值型数据主要来源于被审计单位财务核算和业务管理等信息系统,主要为数据库或电子表格类型文件;非数值型数据主要来源于被审计单位经营决策信息系统、历史档案和外部单位,主要为被审计单位的基础资料、会议纪要、收发文件、审计报告、总结材料、业务流程、合同协议、内部控制制度、说明材料、制度汇编、政策法规资料以及来自于被审计单位之外的查询材料和举报材料等。数值型数据和非数值型数据共同组成网上审计的数据源。
    网上审计中,数据源的数据主要通过两种途径进入数据仓库。其一,通过预先设置的数据采集接口,自动采集、转换、清理和验证数据,生成审计中间表。这种数据采集方法,充分利用了网上审计中审计对象固定,需要处理的原始数据的结构基本相同,审计的范围和内容也变化不大等特点,由审计人员预先定义好审计中间表的结构,确定数据采集、转换、清理和验证的规则,然后由审计前置服务器根据审计人员设置的调度指令,自动执行数据采集过程并形成审计中间表。其二,审计人员手工采集、转换、清理和验证数据,手工将数据纳入审计中间表。这种数据采集方法与常规审计中的数据采集方法类似,从数据的采集到数据验证,都需要审计人员手工操作,而且在网上审计中,手工采集的数据,要纳入网上审计的资源平台,作为审计中间表的一部分。
    在网上审计的实践中,上述两种方法往往结合起来运用,要针对不同的数据源和不同的数据格式,采取不同的数据采集方法。对于数值型数据主要采取第一种方法,而对于非数值型数据则主要采取第二种方法。
    二、数据的存储与管理
    数据的存储与管理是整个数据仓库系统的核心。在此过程中,存储和管理的是数据仓库和数据集市。
    网上审计中,数值型数据通过数据采集接口自动进入数据仓库(基础性审计中间表);非数值型数据往往通过手工方式进行采集、转换、清理和验证,然后纳入数据仓库。不同类型和格式的电子数据通过采集接口或手工转换进入数据仓库,主要包括了电子数据的采集、转换、清理和验证等过程,最终将电子数据组织起来,作为一种共享资源加以利用。数据仓库还可以按照不同的审计分析主题进行组织,形成数据集市(分析性审计中间表)。数据仓库和数据集市均为电子数据的集合,这些电子数据来自于不同的数据源,其原始类型和格式各不相同。为了便于共享利用,我们有必要制定一个标准,来限定数据仓库和数据集市中电子数据的格式。当然,不同的人可能会制定不同的标准,只要在同一个网上审计项目中执行同一个标准就行了。
    数据仓库往往是要能够提供不同的应用,所以一般应采取数据仓库—数据集市的结构。在这种结构下,数据仓库主要满足数据整合、数据清理和通用性审计分析主题的需要,数据集市主要满足专用性审计分析主题的需要。这种结构的优点是:
    (一)数据仓库不仅为OLAP提供了数据源,还为数据仓库的查询处理,数据挖掘的应用提供了数据基础。同时数据仓库还充当了网上审计的数据资源平台。
    (二)数据集市是直接为OLAP服务的,在建立数据集市的过程中,可以自由地根据分析的需要对数据结构和内容进行加工,而不必担心损害数据仓库的通用性。只建立数据仓库或者只建立数据集市的结构很难在专用性和通用性上取得平衡。
    (三)数据集市的构建可以完全不考虑最初数据源的结构和内容,而直接面对的是结构优良,数据质量良好的数据仓库。数据仓库在数据源和数据集市之间形成了一个缓冲,大大减少了数据源的变化对数据集市的影响。
    (四)先建立数据仓库,再建立数据集市,避免了直接在数据源上建立数据集市所带来的数据不一致和重复抽取等问题。
    三、OLAP服务器
    OLAP(联机分析处理,英文名称为On-Line Analysis Processing)是一种软件技术,他使分析人员能够迅速、一致、交互地从各个方面观察信息,以达到深入理解数据的目的,这些信息是从原始数据直接转换过来的,他们以用户容易理解的方式反映企业的真实情况。OLAP服务器对分析需要的数据进行有效集成,按多维模型予以组织,以便进行多角度、多层次的分析,并发现趋势,具有以下显著特征:
    (一)数据的多维性。
    首先,多维视图反映了一个现实中的审计模型,几乎没有一个审计模型可以用少于三维的数据来描述。
    其次,一个数据的多维视图不仅仅是“切片切块”,它提供了灵活获取信息分析过程的基础。审计人员能够以自然的方式,跨维度、跨层次地使用数据,而不是依靠于复杂的查询语句。
    (二)强大的运算能力。
    OLAP提供了强大的运算功能,它不仅能够做到简单的聚集运算,还能进行分层次的聚合运算以及其他更复杂的运算,这就为审计提供了一种复算和数据分析的强大工具。
    (三)时间智能。
    时间几乎是所有的分析应用的必不可少的一维,OLAP对时间维度的利用可以从三方面来看。首先利用时间的顺序性,可以分析一年中连续数个月的数据趋势;其次利用时间的层次性,可以对某一数据从年到日进行分层次的分析;最后利用时间核算的概念,可以对某一时间段内的数据进行汇总或求平均数。
    四、前端工具
    前端工具主要包括各种查询工具、数据分析工具、风险预警工具、数据挖掘工具以及各种基于数据仓库或数据集市的应用开发工具。网上审计中网上审计平台提供了这些前端工具,供审计人员对数据仓库或数据集市进行查询和分析等。目前,网上审计中对数据查询工具和数据分析工具的运用较为普遍,也在查出问题和揭露风险方面发挥了重要作用;但对于风险预警工具和数据挖掘工具的运用尚处于起步阶段,还需要审计人员在今后的网上审计理论和实践中不断研究、探索,寻找更加便于操作和有效的工具,总结方法和经验。(侯绍林)
     
【关闭】    【打印】