浅谈电子数据质量问题及解决方法

首页 > 审计之窗 > 综合论坛 > 正文

浅谈电子数据质量问题及解决方法

李斐（审计署郑州办）

【发布时间：2010年01月15日】

    随着社会信息化程度的提高，许多的单位和组织都建立了与之相适应的计算机信息系统，并且系统功能不断完善，存储了大量电子数据。由于被审计单位软硬件平台的异构性以及人为隐瞒信息等原因，造成审计部门与被审计单位之间的信息不对称，审计人员所获取的电子数据存在不同程度的质量问题，由于电子审计数据的质量与审计结果的质量密切相关，这就要求审计人员对所获取的电子数据进行检查、控制和分析，进行有效的电子数据质量控制，从而降低审计风险。
    一、电子数据质量对审计风险的影响
    在面向数据的计算机审计中，审计人员了解被审单位的经济、业务活动主要是通过其提供的审计数据，如财务报表、交易记录、原始凭证等，并按照一定的程序进行取证，形成审计意见。由于信息系统的广泛运用，被审计单位内部积累了大量的电子数据，由于各种原因，被审计单位现有系统数据库中存在这样或那样的“脏”数据，主要表现为重复的数据、错误的数据、不完整的数据等，这些都会影响电子数据的质量。
    电子数据不但逻辑组织方式多样，有层次、网状、关系等，而且物理存储格式多样，简单的可使用文本文件、电子表格文件，复杂的为不同类型的电子数据库管理系统。审计人员只能评估其风险水平，但却无法控制和影响电子数据。并且，审计人员实际上缺乏有力的技术手段对数据质量进行检查评价，只能够进行简单的分析判断。在信息系统环境下，被审计单位的数据量达到一定的规模，而且由于介质的变化，使资料修改、删除更加容易，很少留下审计线索。另外，电子数据的采集、整理和分析过程中，数据的质量问题带来的审计风险也尤为重要。在实际的工作中，审计人员要根据掌握的技术、实践经验、获得的技术支持等来确定对电子数据的采集、处理方式，这一阶段对数据质量的要求比较敏感，可能会给审计带来风险，例如数据格式存在缺陷，系统格式不兼容，数据分析技术和工具使用不恰当等。
    电子数据对于审计工作越来越重要的情况下，带给审计人员快捷高效的审计技术手段的同时，也对审计人员提出了更艰巨的技术挑战，数据质量的高低将直接对审计结果及其风险产生影响。
    二、审计人员对审计电子数据的需求
    在“电子数据审计”模式下,审计人员获得的电子审计数据成为重要的资料来源。虽然审计人员得到电子审计数据的目的可能是多元的,如掌握资金使用情况、进行风险评估等,但整体来看，利用电子审计数据的主要目的是为了取得审计证据,支持其关于审计事项的判断或结论。尽管现行证据法的滞后性和不确定性使得电子证据在审计工作的实际运用中仍旧面临问题,但是电子证据,或者通过电子数据获得的其他证据，及其所带来的边际效应，无疑已经成为现代审计人员一个非常重要的证据来源。审计数据的应用目标是取得适当的审计证据，审计数据的质量需求与审计取证需求基本一致。
    根据审计取证需求，电子数据应满足以下两个方面要求:
    一是取证过程的可行性,审计人员能够比较经济地利用审计数据进行取证,这就要求审计数据具有可采集、可验证、可理解、可分析等特点。
    二是证据适用性,从电子数据中获得的审计证据应该满足审计证据的基本特征、要求。电子数据中获得的证据是整个证据体系中的一个组成部分，并和其他部分一起，具备充分性、适当性、相关性等一系列特征。
    三．常见的电子数据质量问题
    随着数据采集的技术和渠道日益广泛,审计数据库中的数据质量主要由进入数据库中的原始数据源的数据质量决定的。原始数据源中的数据质量问题有许多种,以下主要从电子采集、整理、分析等阶段，分析审计人员在实际工作中遇到的问题。
    1 数据采集：  数据采集是信息化环境下对于被审计单位电子数据审计的首要前提和基础,是在审前调查提出数据需求的基础上,按照审计目标,采用一定的工具和方法对被审计单位会计信息系统中的数据库文件进行采集的过程，该阶段主要分为以下两种问题：
    （1）被审计单位的信息系统没有实现数据接口,或实现了的数据接口不能满足审计的要求，导致审计人员无法将电子数据迁移至审计软件系统。
    （2）审计软件环境无法识别从被审单位的信息化环境迁移的数据格式，导致使用审计软件打开电子数据时显示乱码或缺少部分数据等情况出现。
    2 数据整理：审计人员在获得电子数据后，首先应处理电子数据本身存在的缺陷，为下一步的数据分析提供保证。该阶段常遇到以下三种情况：
    （1）数据缺失：在一些记录的字段属性上没有值,如资金金额、客户名称为NULL。这可能是由于采集时值不确定、误操作或采用缺省值等原因而引起的。
    （2）属性异常：数据表中某些记录的属性值在数据迁移过程中发生变化，例如数据被采集到审计人员的审计软件后某数据文件的“日期”字段显示的属性为数字类型。
    （3）冗余冲突：既有可能是同一数据在不同数据源里的简单重复,如数据集中有多条记录表示同一个实体，也有可能重复的数据之间还存在冲突。
    3、数据分析：需要审计人员充分理解数据库中各个数据文件的格式，文件中各字段代表的具体含义，及其各个文件中的相互关联等情况，运用各种分析方法对电子数据进行深层次的挖掘工作，发现隐藏其中的问题，分析中遇到的问题主要是：
    （1）数据命名无规则：底层数据库中的文件名或文件中的字段名大多使用英文字母或特殊符号，有些被审单位使用某些软件公司开发的应用软件，文件或属性命名规则性较差，相关联的数据文件名称没有明显的区分，造成审计人员花大量的时间分析文件内容和相互关联关系，影响审计效率，同时，审计人员也有容易忽略某些具有特殊含义的字段，造成审计风险。
    （2）数据模式冲突：是与数据模式相关的不一致,主要有命名冲突和结构冲突。命名冲突表现为同一名称表示不同的实体/属性或不同名称表示同一实体/属性。如一个数据源中用“借方”来表示科目表中“借方”属性名,而在另一个数据源中用“Db”这一英文缩写来表示。结构冲突通常表现为同一对象在不同的数据源中用不同的表示形式,如对于借贷方余额的存储,在一个数据源中用“借方余额”和“贷方余额”两个属性来表示,而在另一个数据源中用“借贷方余额”和“借贷方向”来表示。
    （3）数据语义冲突:是与实例相关的不一致,产生的原因主要是不同的设计者在对客观对象进行阐释时采用了不同的描述方法。如在一个数据源中用“借”或“贷”来表示“借贷方向”,而在另一个数据源中用“Dr”或“Cr”来表示同一属性的取值。
    （4）数据值异常：即数据集中存在孤立点,它们不符合数据的一般模型或规律。造成孤立点的原因很多，可能是数据进行迁移时产生的错误，也可能是程序对缺失属性值自动生成的替代值，同时，孤立点也可能正好反映了数据中蕴含的某种审计线索,审计人员不能简单将它删除。
    四、处理电子数据质量问题的基本方法
    出现电子数据质量问题将直接影响审计结果的准确性，审计人员应予以高度重视。解决这些电子数据质量问题对于提高审计的质量与效率都至关重要，对于不同的问题应该“对症下药”，采用不同的解决方法：
    1．对于被审计单位的信息系统没有实现数据接口或实现了的数据接口不能满足审计的要求的问题，审计人员应充分与被审单位信息系统管理人员进行沟通，了解电子数据格式，利用被审单位信息管理软件平台将数据导出转换为符合审计要求的数据格式，或者通过ODBC等数据库访问接口,直接访问被审计信息系统的数据库,获取电子数据，必要时联系软件系统开发企业的有关技术人员帮助解决。
    2．命名规则性较差的电子数据文档，通常不符合一般数据库、表、字段等名称的命名格式，一方面需要审计人员阅读有关的应用软件开发或系统数据库维护文档，获取数据表文件及包含属性的含义，另一方面，在无法获取文档帮助的情况下，需要审计人员通过文件中具有明显特征数据内容找出重要的帐表文件，推导出部分属性含义，再根据这些属性找出其他关联文件。
    3. 数据缺失的处理根据不同的情况，有以下解决方法：
    （1）对于那些包含大量空值的列的电子数据，不仅不能给审计人员足够的信息,反而会影响审计效率和执行的效果。解决这一问题的方法之一就是删除那些包含大量空值的列。
    （2）使用一个固定的值填充缺失值:所有空缺的值用一个常量代替。这种方法虽然简单,但只适合缺失值不多的情况。
    （3）使用属性的平均值填充缺失值:对同一个属性的所有缺失值都用该属性的平均值代替,使替代值更接近缺失值,以降低误差。
    （4）使用推导值代替缺失值:若某属性的取值只有少量几种,就可以计算这几种属性值在该属性中所占的比例,并对该属性中的缺失值同比例随机赋值。这种方法较适合缺失属性为逻辑型的情况。
    （5）使用最可能的值代替缺失值:可以利用回归分析、决策树或贝叶斯形式化推导方法等建立一个预测模型,然后按照这个模型的预测值填充缺失值。这种方法相对比较复杂,但却最大程度地利用了现存数据所包含的信息来预测空缺值,具有很好的效果。
    4.属性异常通常在数据的迁移过程中不易被发现，往往是审计人员在对电子数据进行分析时取值失真才意识到问题的存在，有些是该属性字段下的所有数据格式都发生变化，有些是部分数据格式异常，对于这两种情况都可以将该属性字段下的所有数值格式全部选取进行格式转换，避免寻找个别数据元进行操作的复杂性。
    5.对于冗余记录的处理,一般要经过以下两个步骤: （1）通过实例匹配找出表示现实世界同一实体的相似记录。（2）将相似的记录合并到包含所有相关属性并没有冗余属性的记录中。对于同一实体中冗余属性的处理,可以通过属性间的相关分析来删除冗余属性。最常用的相关分析方法是计算属性间的相关系数。如果属性A和属性B的相关系数大于设定的阈值,则表明A和B具有较强的相关性,A（或B）可以作为冗余而去掉。同时还可以运用技术手段删除冗余属性，如运用判定树归纳方法选择属性子集,由源数据构造判定树,不出现在树中的所有属性被认为是冗余的,出现在树中的所有属性形成归约后的属性子集。
    6．所谓数据值异常,就是远离或者超出某列分布规律的数据,主要表现为孤立点的存在,所以对于数据值异常处理的主要任务就是检测出孤立点。由于孤立点可能是数据质量问题导致的,但也可能反映了事物背后某种异常现象的发展变化,在面向数据的计算机审计中,孤立点可能预示着某种审计线索。所以在检测出孤立点后必须再由人工判断检测出的孤立点是否为事实上的孤立点。若为事实上的孤立点,则可将孤立点视为干扰数据而丢弃,或者运用数据平滑技术按数据分布特征修正源数据。对于孤立点的检测,若数据量较小,可以人工进行检测，但当数据量很大时,就需要运用计算机技术和统计学相关原理进行检测，例如使用Benford法则对企业的大量费用支出情况进行检测发现的孤立点。
    7.数据模式冲突、数据语义冲突以等问题,在分析时常常涉及到对各数据源中的原始表及其有关属性进行模式重构工作,审计人员可以利用AO现场审计实施系统的强大分析功能，对被审计单位的电子数据的某些属性进行分解、合并、展开等工作，以达到各个数据文件形成一致集成模式的目的。（李斐审计署郑州办）

【关闭】【打印】