从行为到数据的特征发现方法
陈峰 王秦辉(审计署京津冀办)
【发布时间:2011年11月02日】
字号:【大】 【中】 【小】
    
    【摘  要】  审计发挥“免疫系统”功能要求审计人员迅速发现审计线索、及时查处重大违法违规问题,然而通过数据来还原经济行为再判断其合法性的传统计算机审计方法有其明显弊端,需要找到一种能够迅速抓住问题并及时发现和揭露正在发生的违法犯罪行为的方法。本文介绍了一种以行为分析为主、数据分析为辅的从行为到数据的特征发现方法,其过程一般是先假设存在某种行为,然后通过行为分析列举出可能的行为特征,然后通过数据分析来验证这些行为特征在数据中是否有反映,如果发现了对应的数据特征,那么就说明最初假设的行为是存在的,从而形成审计线索。本文还对该方法的三个实施步骤“行为特征分析”、“行为到数据的特征映射”以及“数据特征发现”进行了详细阐述。
    【关键字】  行为  数据  特征发现

    前言
    突出重点,捕捉疑点是审计线索特征发现的目标,在计算机审计中,需要通过数据分析来发现特征,进而确定审计线索。传统的数据分析方法是通过数据来还原经济行为再判断其合法性的方法,这种方法的弊端一是时效性差,对数据进行全面采集整理比较费时,难以快速抓住问题,不利于打开审计工作局面;二是如果数据采集不全面,则难以真实还原经济行为,无法抓住问题。
    审计发挥“免疫系统”功能对计算机审计提出了更高的要求。需要找到一种方法,能够迅速抓住问题,及时发现、揭露和制止正在发生的违法犯罪行为。笔者和笔者的同事经过多年实践探索,以“从行为到数据”的思路来进行特征发现,取得了较好的效果。
    一、案例分析
    1. 案例简介
    利用POS机套现是金融领域近年来出现的新型违法犯罪行为,除了影响正常的金融秩序,损害银行利益外,更重要的是为信用卡诈骗、洗钱等违法犯罪提供了便利条件,成为滋生其他金融犯罪的温床。公安部门对此类问题的查处通常是通过举报或者专项排查来获取案件线索,那么从审计角度出发,能否通过数据分析来发现案件线索呢?
    在2010年的某商业银行审计调查中,审计人员积极运用计算机审计技术,通过特征总结、模型构建、数据分析、信息比对等方法,发现了胡某等12人组成的团伙利用12个空壳公司向银行申请POS机,并虚构交易为信用卡持卡人套现,涉嫌非法经营的案件线索。一是通过咨询银行相关专家、查阅互联网信息等方式获取大量利用POS机套现的案例素材,并进行科学分析,总结出从事POS机套现的商户其刷卡交易数据呈现出的短时间内刷卡交易笔数多、单笔金额大、间隔时间短、交易总额高等异常特征;二是根据总结出的异常特征构建套现型商户的特征模型,在通过银行获取的POS机商户刷卡交易数据上运行该模型,通过数据分析筛查出可疑商户;三是从账户资金流水入手,对资金的去向进行层层追查,进一步查明这些商户申请使用POS机的情况,锁定关联网;四是通过调取分析银行账户流水、查询税务申报情况、比对互联网相关信息等外部手段以及外部数据的分析,初步认定商户犯罪事实;五是对商户的账户流水继续追查,提示出刷卡交易资金通过层层划转被集中转入个别商户账户,之后又被转入若干个个人账户,最后通过ATM机或者柜台被取现的犯罪过程。该线索移交公安部门后,经过进一步侦查,最终刑拘了21名团伙成员,涉案金额超过5亿元。
    2. 案例剖析
    在本案例中,审计人员之所以能够从海量数据以及纷繁复杂的信息当中准确地发现线索,而且在不惊动犯罪分子的情况下迅速掌握关键证据,主要在于审计人员较好地把握了套现型商户利用POS机进行套现的行为区别于一般商户利用POS机进行正常刷卡交易行为的特征,进而有针对性地获取相关数据,并通过特征发现从数据中找到了疑点。其关键在于首先是对利用POS机进行套现的犯罪行为进行了深入分析,总结出从事POS机套现的商户其刷卡交易的行为会表现出一些明显的特征,比如短时间内刷卡交易的笔数会比较多、每笔的交易金额都不会太小、没有真实的贸易背景等;再者是对这些犯罪行为在数据中的反映进行了深入分析,总结出套现商户的POS机刷卡交易数据会呈现出诸如交易时间间隔短、交易总额高、交易额与注册资本及进出货量明显不符、平均每笔交易额接近信用卡额度、账户中的资金被大量提现等特点;继而在相关数据中发现这些特征并进行分析取证,最终确定了审计线索。这是一个从行为到数据的特征发现过程,是这个案例成功的关键。
    二、特征和特征发现
    1. 什么是特征
        审计之所以能够发现问题,首先要有审计线索,而审计线索往往是从一些蛛丝马迹中发现的,这些蛛丝马迹就是审计线索的特征表现。任何一项具体的活动都具有行为特征,这种行为特征又会转换为数据特征。
     特征的概念
    所谓特征,是指可以作为事物特点的征象、标志等。对审计工作而言,特征就是被审计对象在经济、管理、社会等领域活动时产生的具有共通性、规律性、特殊性、异常性等区别于其他事物的征象与标志。特征的这种直接表现就是行为特征,其在数据中的反映就是数据特征,这些特征往往是发现审计线索的关键所在。
     行为特征
    行为过程是需要和动机逐步实现的过程,无论是被审计对象的经济行为还是非经济行为,都是由其需要和动机相组合形成的,不同的需要和动机的结合必然导致不同的行为,不管是正常的行为还是异常的行为,都有一定的特点,这些区别不同行为的关键表现就是行为特征。 
     数据特征
    数据是用于载荷信息的物理符号,是信息的一种表现形式。被审计对象的经济活动及非经济活动都会产生大量的信息,对这些信息的记录、存储就形成了数据,分为数值型数据和非数据型数据两类。被审计对象在各种活动中的行为特征也会以某种形式反映在数据中,比如表现为某些特定的数据,或者是一些数据的组合排列,或者是数据结构的改变等等,这些都是数据特征。
     行为特征和数据特征的关系
    从以上对行为特征和数据特征的概念分析中可以看出,被审计对象的各种活动产生了行为信息,这些信息以数据的形式表现出来,因此可以说行为特征决定了数据特征,数据特征反映了行为特征。
    2. 特征发现过程
     特征发现的概念
    本文所指的特征发现是以计算机处理为基础的信息化环境下的特征发现,因此审计人员面对的是电子数据。在此前提下,特征发现可以定义为从大量的数值型和非数值型数据中提取有用的信息和知识的过程。在信息化环境下,审计线索会通过电子数据表现出一定的特征,捕捉到这些特征并进而进行分析取证,是计算机审计发展到目前阶段的一种有效做法。这是一个从海量数据中提取符合条件的数据并获取相关信息的过程,是一种基于审计中间表的知识发现的技术。
     特征发现过程
    所谓过程,是指事物进行或事物发展所经过的程序。审计线索特征发现的一般过程就是指为了达到最终发现审计线索特征这一目的而采用的步骤、程序。根据其步骤程序的不同,通常分为两种,一种是“从数据到行为”的发现过程,一种是“从行为到数据”的发现过程。
    “从数据到行为”的发现过程是一种完全从数据分析角度出发的特征发现方法,力图通过数据分析来发现数据特征,然后在数据特征的基础上还原其对应的经济或非经济行为原貌,继而用法律法规来判断其行为的合法性,最终形成审计线索。
    “从行为到数据”的发现过程是“从数据到行为”的逆过程,是一种以行为分析为主、数据分析为辅的特征发现方法。其过程一般是先假设存在某种行为,然后通过行为分析列举出可能的行为特征,然后通过数据分析来验证这些行为特征在数据中是否有反映,如果发现了对应的数据特征,那么就说明最初假设的行为是存在的,从而形成审计线索。
    “从数据到行为”的发现方法通常需要全面采集被审计单位的各种数据,然后运用多种数据分析方法来进行特征发现,是一种开放发散的方法,而“从行为到数据”的发现方法则能够更加准确地聚焦到问题所在,迅速发现审计线索。
    三、从行为到数据的特征分析方法
        从行为到数据的特征分析方法一般分为三个步骤:行为特征分析、行为到数据的特征映射以及数据特征发现。在这里本文介绍的是运用该特征发现方法的思路,而不是单纯从技术的角度就技术讲技术,就方法讲方法。
    1. 行为特征分析
    行为特征分析就是在审计线索特征发现过程中首先要尽量分析列举出可能的行为特征表现。这不仅需要一定的经验积累,还需要对相关的资料、信息进行全面分析,从多角度入手总结出什么样的线索会通过什么样的行为特征和方式表现出来。在审计实践中,行为特征通常是从违法犯罪手段以及法律法规要素等方面来进行分析的。
     从违法犯罪的手段来分析行为特征
    在审计工作中,对违法犯罪行为的揭露是从发现审计线索开始的,这就需要审计人员根据这些违法犯罪的行为特征去捕捉审计线索,实践中比较直接有效的方法是针对违法犯罪的手段进行深入分析,进而总结出其行为特征。违法犯罪的手段对审计人员来说往往会有以下两种情况:
    一是在以往的审计工作中出现过、查处过的。审计人员在长期的对各行业各种情况进行审计后,对发现的违法犯罪行为进行总结提炼,形成了非常宝贵的历史案例,在审计实践中,可以直接借鉴这些历史案例,总结出违法犯罪的行为特征。此外在对某类问题的反复审计过程中,审计人员往往能摸索、总结出业务的规律及问题的表征,在实践中掌握这些规律、抓住这种表征,从现象分析至实质,就可以较为准确地发现违法犯罪的行为特征。
    以银行承兑汇票诈骗案件为例。近年来,银行承兑汇票业务发展迅速,成为银行中间业务的主要品种之一。按我国现行政策的规定,申请开票的企业必须具备两个条件,一是有真实的贸易背景,二是必须提供足够的保证金,到期必须归还银行的欠款。根据以往的审计案例及经验,一些不法企业为了达到骗取银行票据的目的,往往采取虚构贸易的手法,前笔开票欠款到期后,又采取滚动开票的方法,开新还旧。在对银行的承兑汇票业务进行审计时,审计人员通过深入分析历史案例中不法企业骗取银行票据所采用的手段,总结出违规滚动签发银行承兑汇票通常具有以下三个基本特征:一是前一笔承兑汇票的到期日与后一笔的出票日相同或相近;二是为了套取银行资金,一般采取保证、抵押、质押的担保方式,而不是全额保证金;三是一般没有真实贸易背景。因此,只要以到期日和出票日的时间间隔、担保方式、企业经营范围为基本判断要素,就能进一步验证是否存在滚动签发无真实贸易背景银行承兑汇票的问题。
    另一种则是审计人员还未接触过、新出现的。随着审计职能的转变,审计人员面对的情形越来越复杂,面对的新生事物也越来越多,一些各行业中的新型违法犯罪行为可能还未在审计工作中被发现揭露过。在没有历史案例能够借鉴的情况下,审计人员需要大胆假设、合理虚拟违法犯罪行为,通过各种渠道获取、了解、掌握相关的业务信息,对这些信息深入分析后,梳理出对应的违法犯罪过程将会形成一个怎样的行为链条,总结出该链条上关键环节的行为特征。前面提过的POS机套现案例就是这种情况。POS机套现犯罪的技术含量较高、手法隐蔽,查处难度较大,也是审计人员在金融审计领域中遇到的新问题,在此案例中,审计人员通过科学分析总结出此犯罪行为的特征,再将行为特征落实到数据特征中,最终发现审计线索。
     从法律法规的要素来分析行为特征
    当违法犯罪行为本身比较隐蔽,或者具有很强的伪装性,利用了知识或者行业漏洞,钻法律法规的空子,不易察觉时,直接通过分析违法犯罪的手段来发现行为特征会比较困难,此时可以进行换位思考,从法律法规的要素来分析行为特征,即在各种法律法规的约束下,从事违规行为的当事人可能会采取哪些手段来进行违法违规活动,进而分析总结出行为特征。
    以骗取征地拆迁补偿款案件为例。近年来,在一些土地收储项目和建设项目中,诈骗征地拆迁补偿款的案件时有发生。审计工作也很关注此类问题,但由于审计时被征地块的拆迁工作往往已经完成,很多实物证据已经不复存在,发现线索十分困难。在某审计项目中,审计人员认真分析了相关的法律法规,其中一个文件《关于城市拆迁房屋拆迁补助费有关规定的批复》让审计人员找到了突破口。该文件第五条规定:“因拆迁非住宅房屋造成停产、停业经济损失的,对被拆迁人根据被拆迁房屋的区位、使用性质,按照每平方米建筑面积500元至1500元给予一次性停产停业综合补助费”,根据这条规定,可以看出综合补助费是以造成被拆迁企业停产、停业经济损失为前提条件的,因此企业提供的工商营业执照和完税凭证将是确定其企业腾退综合补助费的重要依据,那么不符合规定的无正常经营的企业要想骗取综合补助费,提供的工商营业执照和完税凭证肯定是虚假的。由此分析,企业骗取腾退综合补助费的行为特征就是伪造或变造工商营业执照和完税凭证等重要凭据。
    无论是从违法犯罪的手段来分析行为特征还是从法律法规的要素来分析行为特征,都是为了更准确快速地捕捉到违法犯罪活动的行为特征,为进一步发现审计线索打下基础。这两种方法是相辅相成的,在审计实践中,通常将两种方法结合应用,取得更好的效果。
    2. 行为到数据的特征映射
    因为数据是对行为的记录,是对行为信息的反映,因此行为和数据之间存在对应关系,相应地,行为特征也将在数据中留下痕迹,形成数据特征。在审计中,要将行为特征转化为数据特征,就是要找出行为到数据的特征映射,基本方法是首先采集行为特征所对应的数据;其次确定与行为特征直接对应的关键字段;然后模拟行为特征所决定的数据特征。
    例如在银行承兑汇票的案例中,滚动开票的基本行为特征是前一笔承兑汇票的到期日与后一笔的出票日相同或相近,那么在做进一步的数据分析时,只需采集与银行承兑汇票业务相关的电子数据“承兑合同表”和“出票人基本信息表”。在这些签发银行承兑汇票数据中,应重点关注同日滚动,即前一笔承兑汇票的到期日与后一笔银行承兑汇票的出票日相同的记录,因为此种滚动签发的方式实际上承兑申请人没有对上一笔银行承兑业务进行解付,因此,确定与该行为特征直接对应的关键字段有客户名称、汇票金额、出票日期以及到期日期等,据此生成所需的审计中间表——“承兑汇票信息表”。滚动开票的行为特征在该表中就映射为客户名称相同、汇票金额相同、同日滚动开票的数据特征。
    3. 数据特征发现
    通过以上两个步骤,将问题的表征转化为特定的数据特征,接下来就是用适当的技术和方法直接寻找表现特征的可疑数据,从而指导进一步的延伸审计。这个过程是通过运用计算机查询语言或多维分析方法等相应技术来寻找符合相关特征的数据,或验证数据的发展趋势是否与通常的规律相一致的过程。
    数据特征的表现形式大致分为三种,一是表现在数据内容上,如特征会表现为某条记录的值大于既定的阈值;二是表现在数据结构上,如航空运输企业中,收入结算数据结构中 “净额”字段的存在可能是暗扣销售的一个特征表现;三是表现在信息系统上,如果信息系统管理不完善、存在非法模块、设计有缺陷存在漏洞等,都会导致数据之间的逻辑关系或者勾稽关系不一致。
    计算机技术和方法在数据特征发现中扮演着十分重要的角色,在审计实践中,SQL查询分析和多维分析已经得到了广泛的应用,SQL查询分析是审计人员在审计过程中根据不同的分析需要,通过编写SQL语句设置各种条件对数据进行查询分析;多维分析支持审计人员从不同的角度快速灵活地对数据库中的海量数据进行多角度查询和分析,并以直观易懂的形式将查询和分析结果展现给审计人员。在以上几个案例中,审计人员熟练运用SQL查询分析技术,根据分析出的数据特征在相关数据中迅速发现了疑点数据,并通过进一步的分析取证,锁定了审计线索,最后揭露了违法犯罪行为。
    近年来,随着审计实践的发展,上述传统分析技术在很多项目中已经不能完全满足我们的全部需求,为了能够在缺乏审计经验的情况下对海量数据进行特征挖掘,为了能够处理非数值型数据等等,诸如数据挖掘、非数值型数据的文本挖掘、征兆发现、探索性数据分析等技术也逐渐在审计实践中得到研究并应用起来。
    结语
    无论是“从行为到数据”还是“从数据到行为”,都是审计线索特征发现的重要方法。相较而言,从行为到数据的特征发现方法只需采集特定的相关数据进行分析,不必等待数据采集完全,具有很强的针对性,能够迅速发现审计线索,及时发现违法犯罪行为,有利于审计突破,发挥免疫系统功能。但是该方法也有其一定的局限性,因为不是进行全面的数据分析,因而不能反映被审计单位的全面情况,同时对审计人员要求比较高,需要有丰富的审计经验和对犯罪手段以及法律要点清晰的认识。
    从行为到数据的特征发现方法主要应用于查处重大违法违规问题,审计实践中应与其他方法相结合,相辅相成,才能取得更好的效果。应用该方法多数情况下只是发现审计线索,揪出线头,还需要审计人员再做大量的延伸审计工作,顺藤摸瓜,才能最终发现大案要案。
    主要参考文献
    刘汝焯等. 2009. 审计线索的特征发现[M].北京:清华大学出版社.
    
【关闭】    【打印】