破解信息孤岛现象 以审计元数据为基础构建“五个关联分析”纽带
代斌 肖敏(审计署重庆办)
【发布时间:2016年06月14日】
字号:【大】 【中】 【小】

【摘 要】随着我国社会信息化的飞速发展,国家审计已进入大数据时代,推进以大数据为核心的审计信息化建设是应对未来挑战的重要法宝,也是实现审计全覆盖的必由之路。为了做好“五个关联分析”,实现审计全覆盖的工作目标,需建立起一套相应的管理机制和技术手段。本文针对大数据环境下审计数据分析工作的特点和关键以及审计数据的管理利用情况和需求,相应地提出审计元数据的概念及其在实现“五个关联分析”中的功能和作用。

【关键词】审计 大数据 元数据 信息孤岛

随着国家审计的发展,审计监督已经成为国家治理体系和治理能力现代化的重要组成部分,各级政府对审计也提出了更高的要求,要求对公共资金、国有资产、国有资源和领导干部履行经济责任情况实现审计全覆盖。审计发展到今天这个阶段,推进以大数据为核心的审计信息化建设是应对未来挑战的重要法宝,也是实现审计全覆盖的必由之路。

刘家义审计长指出, 对于目前的审计数据集中和分析工作,要重点要做好五个方面的关联:一是从中央财政到省市县乃至每个乡镇的资金使用、从部门到项目具体执行单位的资金使用的纵向关联。二是从市财政、市发改委到一级、二级预算单位的各种专项资金的横向关联。三是财政、金融和企业三方面的数据关联。四是财政与其他多部门、多行业的数据关联。五是财政数据与业务数据、宏观经济数据的关联为此,审计署提出了“总体分析、发现疑点、分散核查、系统研究”的大数据审计作业方式,该方式的核心就是要集中足够多、足够全的电子数据,建立包括财政、税收、金融、社保等行业部门以及审计业务相关数据的国家审计数据中心(以下简称数据中心)。但是面对如此广泛、庞大、复杂的数据,要管理好、利用好这些资源,真正实现刘家义审计长提出的做好“五个关联分析”的目标,需要有一套相应的管理机制和技术手段。本文针对大数据环境下审计数据分析工作的特点和关键以及审计数据的管理利用情况和需求,相应地提出审计元数据的概念及其在实现“五个关联分析”中的功能和作用。

一、实现“五个关联分析”的数据基础及面临的挑战

近年来,审计署坚持把统一规划、分步实施作为基本方针,保证了审计信息化建设的有序推进,在一些关键环节上也取得了进展,为实现“五个关联分析”打下了基础。

当然,这些新的技术方法和手段的应用反过来又会对审计数据关联分析带来挑战,特别是由于我国社会各领域信息化建设水平不一造成的信息孤岛现象尤为突出,需要在很多方面进一步完善:

一是需要统一不同种类数据的数据结构,破解信息孤岛现象。虽然大数据在经济、社会、生活等各领域扮演着越来越重要的角色,但由于缺乏统一的信息化建设和发展规划,各部门、各行业、各领域甚至于在同一单位内部往往都存在着数据相对孤立和封闭的现象,因此在不同的数据规划中,相同含义的数据可能表现出不同的名称和结构,这将对今后数据集中分析和关联分析、实现数据的互联互通带来极大的困扰。

二是需要对整个存储架构下的审计数据实行统一管理,让一般审计人员都能够了解整个架构中有多少数据、有什么数据、数据在哪里?结构和含义是什么,从而实现数据的共享。

三是需要整合不同行业和领域的数据规划,这些数据一般都是针对一个部门和行业的,每个规划中都有大量相对比较稳定的基础数据,如地域代码,可以将这些基础数据整合在一起,便于管理和更新。

四是需要在审计数据和审计人员之间搭建一座桥梁,让审计人员方便地使用审计数据,充分利用已有的审计经验和方法指南,建立可重用的审计模型,最大限度地发挥审计数据中心的作用。

二、审计元数据在“五个关联分析”中的作用

从实现“五个关联分析”的目标来看,核心是要实现对不同领域、不同种类数据的横向及纵向关联,为此我们借鉴数据仓库建设的方法,以审计元数据为基础构建审计信息资源组织框架体系,从而实现对审计数据全过程、全方位、全周期的管理。审计元数据不同于传统的元数据,它既包含了审计数据的来源范围、存储位置、数据转换清理、数据结构、数据关联、分析方法、分析结果等与数据特征紧密相关的信息和数据,也包含数据采集的方式、数据分析的模型、疑点查证的方法等与数据应用相关的内容,对这些数据的管理我们称之为审计元数据管理。审计元数据在破解信息孤岛现象、实现“五个关联分析”中应该能够发挥很大的作用,主要体现在以下几个方面:

(一)实现数据共享。

有了元数据,就等于有了一张数据库的蓝图,能够方便地指引审计人员在庞大的数据中寻找到自己需要的数据,实现审计数据的共享。任何进入数据中心的审计数据都应该建立元数据,通过元数据管理。

(二)展现数据结构。

审计元数据联系着审计人员和审计数据的相关数据,它能提供数据字典的功能,使得一般的审计人员也能够“读懂”审计数据中心的数据。审计人员能够很容易以较少的技术和更加友好的方式来理解、存取和分析数据。

(三)确保数据一致。

同样的数据在不同的存储地方可能有相同的备份,很多时候数据需要交换和更新,通过审计元数据的管理,可以使审计数据保持一致。

(四)整合数据规划。

元数据可以将不同数据规划中基础数据进行整合,统一管理、统一更新、统一维护。可以转换不同数据规划中含义相同数据字段的格式,方便实现数据的关联和贯通。

(五)提供数据接口。

可以利用元数据建立数据采集、转换接口,实现数据的持续获取。这些接口一头关联被审计单位提供的原始数据,一头关联已经采集转换后的审计数据,任何一个环节发生变化,相应的其他部分都会改变,这样能保证数据的质量。

(六)管理数据分析。

对于审计数据的广泛和高效利用,分析工具是必不可少的,建立在元数据上的数据分析工具能够集成各种分析技术,建立标准的分析模型,专家经验和审计成果能够得到更好的利用。

(七)保证数据安全。

由于元数据对审计数据的全面、全程管理,可以通过元数据管理审计人员的使用权限,不同的审计人员所能得到或看到的数据是不一样,这样能保证数据的安全。

三、审计元数据定义及其实现路径

所谓元数据就是关于数据的数据,简单地说就是管理审计数据的数据,它可以记录和管理整个数据中心所有相关的信息。我们知道审计数据的来源是最广泛的,信息是最丰富的,为了对采集到的审计数据进行有效地分析和长远地利用,应对审计数据进行合理的组织和管理,也就是要制定审计数据组织和管理的规范,否则,随着时间的推移,将没有人知道数据的来源、格式和内容,这些审计数据将很难再得到使用。而对审计数据的管理最主要的是与数据相关信息的管理,我们称为审计元数据,如:数据的来源、数据的格式、各表之间的关联关系等等。应该说这些信息对审计数据的存储以及分析有着重要的作用,它表述了装载后的电子数据的各对象,遍及审计存储和分析的所有方面,是存储和分析的基础,是管理的核心。

(一)审计元数据定义。

审计元数据是指与审计数据采集、转换、存储和分析相关的所有物理数据和知识,包括物理数据的格式、技术和业务过程、数据的规则和约束以及审计所使用的数据结构。元数据不仅对信息对象进行描述,还能够描述资源的使用环境、管理、加工、保存和使用等方面的情况。

(二)审计元数据分类。

我们可以根据功能将元数据划分为管理型元数据、描述型元数据、保存型元数据、技术型元数据、使用型元数据。这里我们从使用和管理的角度把审计元数据分为:技术元数据和业务元数据。

技术元数据是关于支持开发、维护和管理信息技术环境中所有的分析、设计、开发和管理人员等与技术关系密切的信息,它是连接开发工具、应用程序和系统的技术纽带。如:数据的技术结构、源系统字段标识、从源数据库到目标数据库的映射和转换、源数据库的表结构和属性、目标数据库的表结构和属性、采集历史、版本维护、清洗规则等等。当然,审计数据元数据还包含其他很多内容,如数据转换的过程,产生审计中间表的语句等。

业务元数据则是使审计数据的分析更易于为审计人员所理解,它为审计目标和过程的解释提供便捷浏览、导航和数据查询,数据从业务数据库到分析数据库的映射信息包括原始数据域的标示、属性到属性之间的映射、属性的转换、名称的转换、数据选择的算法逻辑等。如:审计人员了解的数据结构、表名的业务定义、属性名和业务术语定义、数据位置等等。

审计元数据的建设框架如下图所示:

1.审计元数据建设框架

(三)审计元数据功能。

从以上的定义可以看出,首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式访问数据。具体来说,在审计数据中心的建设中,元数据作为数据的数据,经过抽取、收集并存储于元数据库中。审计元数据库是一个结构化的存储、检索和管理元数据的系统,为了满足审计数据的管理和使用,也需要建立一套系统进行管理并至少应包含以下五个方面的功能:

一是描述审计数据中心有哪些数据,定义要进入数据中心的数据和从数据中心产生的数据,记录审计业务发生以及数据使用过程。

二是为了满足审计人员对于审计数据的使用,元数据系统应该提供合适的查询、筛选、导航和浏览机制。导航功能大大增加了元数据库信息供给的力度。

三是为了保持元数据的时效性,元数据库必须不断进行更新,需要建立元数据库访问机制(无论是通过手工或者工具来访问元数据库)。元数据库应该提供模版(例如转换规则)和组件等工具,使得用户输入元数据更为容易。

四是建立版本控制和配置管理机制。元数据的一些重大变化会使得元数据出现多种版本,这就要求元数据库系统具备生成、存储和管理多种版本元数据的能力。

五是建立元数据库的冲突分析机制。管理员和审计人员可以在对审计数据进行某些改变之前来估计这些变化所会引起的系统冲突,记录并检测系统数据一致性的要求和执行情况,衡量数据的质量。

(四)审计元数据的实现路径。

根据不同领域的数据特点和应用需要,90年代以来,许多元数据格式在各个不同领域出现,在网络资源领域有Dublin Core、IAFA Template、CDF、Web Collections等;在地理空间信息领域有FGDC/CSDGM;在数字图像领域有MOA2 metadata、CDL metadata、Open Archives Format、VRA Core、NISO/CLIR/RLG Technical Metadata for Images等。审计可充分借鉴上述不同领域的较为成熟的元数据的设计和实现模式,结合审计数据的特点建设自己的元数据体系。

如在网络资源描述方面,Dublin Core经过多年国际性努力,已经成为一个广为接受和应用的事实标准。都柏林核心元素集(Dublin Core Element Set,以下简称DC)是一个致力于规范Web资源体系结构的国际性元数据解决方案,它定义了一个所有Web资源都应遵循的通用的核心标准,其内容较少,也比较通用,因此得到了其他相关标准的广泛支持。面向其他类型资源的元数据标准,基本上都兼容DC标准,并对它作了扩展。它已经成为Internet的正式标准RFC2413和美国国家信息标准Z3985。其内容见下表:

1.都柏林核心元素集目录结构

通过上述15项内容可以看出,都柏林核心元数据解决方案比较全面地概括了电子资源的主要特征,涵盖了资源的重要检索点(123项)、辅助检索点或关联检索点(56101113项),以及有价值的描述性信息(4789121415项);其次,它简洁和规范。这15个元素不仅可以用于电子文档,也适用于各类电子化的公务文档,以及产品、商品、藏品目录等,具有很高的实用性。审计元数据中的技术元数据可以参考此内容进行描述和设定。

由于审计元数据中的业务元数据涉及到对数据从业务数据库到分析数据库的映射信息包括原始数据域的标示、属性到属性之间的映射、属性的转换、名称的转换、数据选择的算法逻辑等内容的描述,与审计业务和原始数据的结构息息相关,因此可以用类似数据的方法在数据库中进行存储和获取。如果提供原始数据的同时提供描述原始数据的元数据,将会使原始数据的使用变得准确而高效。用户在使用数据时可以首先查看其元数据以便能够获取自己所需的信息。

四、审计元数据建设展望

大数据扩大了数据的容量、速度和多样性,给元数据管理带来了新的挑战。在构建关系型数据仓库、动态数据仓库和关系型数据中心时进行元数据管理,有助于保证数据被正确地使用、重用并满足各种规定。同样,对大数据来说,元数据管理过程中出现的任何错误,都会导致数据重复、数据质量差和无法访问关键信息等问题。随着大数据技术在审计中的应用越来越广泛,审计需要不断丰富和完善元数据管理策略,如通过梳理大数据用例等方式逐步完善大数据的元数据管理、充分利用IBM InfoSphere Information Server 等较为成熟的元数据管理组件实现数据的整合和流程的再造等,在建设国家审计数据中心、实现“五个关联分析”中发挥更为重要的作用。(代斌 肖敏)

主要参考文献:

[1].“科普中国”百科科学词条编写与应用工作项目.2015.元数据.百度百科

[2].迈尔·舍恩伯格等.2013.大数据时代[M].浙江人民出版社.

[3].中国国家标准化管理委员会.2010.都柏林核心元数据元素集.中华人民共和国国家标准.

【关闭】    【打印】