非结构化数据分析在审计串标问题中的应用
蒋超博 赵 辉 (审计署昆明办)
【发布时间:2013年08月26日】
字号:【大】 【中】 【小】
    
    
    【摘要】 非结构化数据占信息总量的比例远大于结构化数据,但针对其处理分析方式的研究却不及结构化数据广泛深入。本文以串标案例为线索,在介绍串标主要形式、串标常用审计方法的基础上,讨论建筑工程领域分析非结构化数据的特点以及非结构化数据文件属性分析、相似度分析、错漏一致分析、价格趋势分析等原理,最后详细介绍如何通过非结构化数据分析对建筑工程串标问题进行审计。
    【关键字】 非结构化数据 串标
    
    近年来建筑工程招标投标中的串标、围标等违法行为频频发生,严重扰乱了正常的市场经济秩序,妨碍了招标市场的健康发展,如何治理这一腐败行为已成为建筑市场管理中的一大难点。目前对该领域的审计方法和手段有限,审计问题难以认定,本文提出的非结构数据分析方法能快速分析出投标人标书雷同、错漏一致的地方,帮助认定和查处串标问题。
    
    一、建筑工程串标主要表现形式
    
    (一)招标人与投标人串通。招标人在开标前用各种方式与投标人串通,主要包括泄露标底,让投标人围绕此标底制作标书;透露其它投标人的相关信息,让投标人做到心中有数;开启其它投标人标书,将信息透露给相关投标人;招标人与投标人私下商定,在招标投标时抬高或压低标价,中标后再给招标人或投标人额外补偿;招标人预先内定中标人范围,在确定中标人时以此决定取舍等等行为。
    (二)投标人之间串通。各投标人在投标之前就已经协议好,为了避免竞争,选择一个单位作为预中标单位,其它单位进行陪标,在陪标时预中标单位给陪标人一定金额的陪标费用,或承诺预中标单位中标后分给各陪标人一定比例或一定数额的“合理利润”作为报酬,或承诺中标后将部分标段包给陪标人完成,一般来说彼此的协议都有一定程度的稳定性和合约性,已形成行业内的“潜规则”。
    (三)代理机构及监管人员与投标人串通。
    代理机构及监管人员利用工作便利,将掌握的招标人各种信息透露给投标人;利用工作之便帮助投标人撤换标书,更换报价或有关资料;与投标人串通,隐瞒投标人的虚假或不利信息,欺骗招标人;与招标人串通,帮助招标人内定中坐标人;就同一项目,即受招标人委托招标代理,同时又接受投标人委托投标咨询等等行为。
    
    二、建筑工程串标常用审计方法

    (一)雷同、错漏对比。不同投标人在投标书中出现大部分雷同之处、错漏一致、异常一致之处,如标书中多处大段的相似,多处在同一地方错别字相同,A公司标书出现了B公司的规定等等,如果上述出现多处,则基本能判断为“疑似串标”。
    (二)价格分析。如果投标人的报价出现以下情况,应引起高度怀疑。总报价相近,但其中分项报价不合理,且无合理解释;总价相近,其中部分项目价格雷同,提不出计算依据;总价相近,部分单价完全相同,提不出合理单价组成的;总价相同,没有成本分析,分项乱调的。
    (三)条件分析。甲方招标书中通常有各种限定,如甲级资质、三年盈利、近几年内承包过类似项目等,如果发现有不符合这些规定的投标人出现在最后的竞标过程中,则说明监管方有与投标人串标嫌疑。
    (四)保证金和标书费用分析。通常串标都会由中标的那家单位为其他陪标单位出保证金和购买标书的费用。保证金既要关注缴纳情况,也要关注退还情况,因为如果招标单位和投标单位勾结的话,有时候会将中标单位为其他投标单位出资的保证金全部一次性打到中标单位。
    (五)材料采购。如果投标书上大部分材料的品牌都相同或者来自相同的供应商,而且价格也相同或相近,则极有可能存在串标嫌疑。在审计实践中,这些串标审计方法通常是要打“组合拳”,需要运用上述手段进行综合评价、比较和分析,进而做出比较准确而客观的判断,如不能仅凭报价相近就武断地认定为串标,还需进行雷同、错漏等分析。
    
    三、建筑工程串标非结构化数据分析审计方法

    上述建筑工程串标常用审计方法基本都是通过手工翻阅资料来完成的。在审计实践过程中往往每个投标人的标书就有好几本,所有投标人的标书加在一起非常多,通过手工翻阅查找上述问题非常困难,效率不高。因此提出采用计算机对投标人电子光盘中的非结构化数据进行分析,通过比较和分析投标人的标书来判断招标过程中是否有串标行为。
    (一)建筑工程非结构化数据特点。使用计算机进行审计的一个重要步骤就是数据的采集。根据确定的审计方案和采用的审计软件,采集到的数据格式、文件大小等因素对顺利的进行计算机审计工作起着至关重要的作用。在审计过程中接触的数据基本上可以分为结构化数据、非结构化数据这两种数据。结构化数据一般指存储在数据库中, 具有一定逻辑结构和物理结构的数据, 最为常见的是存储在关系数据库中的数据;非结构化数据一般指结构化数据以外的数据, 这些数据不方便用数据库二维逻辑表来表现,通常不存储在数据库中, 而是以各种类型的文本形式存放。
    随着各类信息的巨量增长,被审单位的非结构化数据在快速增长,建筑工程非结构化数据的业务对象包括会议文件、规章制度、档案、报表、单据、工作报告、凭证、公文、发票、报表、技术规范书、标书、设计图、批复文件、结算文档、图纸策划等文件形式;建筑工程非结构化数据的格式丰富,包括Word、Excel、PPT、PDF、TXT、JPEG、压缩文件、Cad 图纸等文件格式;建筑工程非结构化数据存储方式多样,有结构化数据库、FTP、纸质材料等多种存储方式。
    非结构化数据贯穿于建筑工程业务中的各个环节,而招投标环节中主要的非结构化数据就是纸质招标文件和投标文件和电子光盘。其中投标文件包含投标函及投标函附录、法定代表人身份证、投标人资格审查、投标报价、施工组织设计、项目管理结构、其它资料等。光盘中电子数据格式主要是Word、PDF、Excel、JPG等格式。
    (二)非结构化数据分析原理。串标非结构化数据分析主要通过文件属性分析、相似度分析、错漏一致分析、价格趋势分析实现。
    1.文件属性分析。通过对比文件属性的作者,创作时间来判断标书是否由同一家公司制作,是否在同一台电脑上编写,光盘是否在同一台电脑上刻录。
    2.相似度分析。其计算机后台运行原理是将投标人的标书分50到200字的小文本,将不同标书中的这些小文本逐一比较,标出每个文本块与其它文本的最大相似度。然后算法统计出相似度,再将相似的部分标志出来。
    3.错漏一致分析。其原理是将标书文件与内嵌专业词库、专业词汇、错误核心库、重点词监控库、敏感库、建议库、排序库等词库进行比较,通过比较发现错漏一致的地方。
    4.价格趋势分析。其原理是围绕报价总价格和各子项目总价格,分析是否投标人将某一投标人的标书的报价作为模版,上下改动部分材料的单价来制作自己的标书。
    (三)非结构化数据分析需注意的问题。
    1.将PDF文件转化为Word格式。投标人在串标过程中为了防止评标专家委员会通过电子文件比对发现串标问题,电子投标书采用PDF格式表示,甚至PDF文件中的重要部分采用图片形式。对于这种情况,可以从网上下载PDF转Word转换器,将PDF文件转换成Word。
    2.通过Word软件对比功能找出不同投标文件中的相同部分。不同投标文件中相同的部分一则是串标雷同的直接证据,二则可以通过相同的部分来查找共同的错别字。
    3.巧用OA系统(审计署审计管理系统)中的“公文错别字检测”功能查找投标文件中相同部分的错别字,相同部分中的错别字是串标错漏一致的直接证据。
    4.将查找出的错别字与纸质投标文件核对。PDF格式文件转换成Word格式文件的过程中,会出现小量错别字,所以要对查处的错别字与纸质投标文件核对。
    (四)非结构化数据分析过程。
    1.文件属性分析。首先,通过文件属性的“常规”项检查文件的“创建时间”,如果创建时间不是投标文件送达截止时间前创建,或者是开标后几天内创建的,说明具有串投标嫌疑。其次,通过属性的“详细信息项”检查“最后一次保存者”,如果“最后一次保存者”一致,而且具体到类似xxx创建,则说明很有可能不同投标人的标书都是由同一个人编写。
    2.相似度分析。首先,比较标书。打开Word 2010的对比工具,在菜单栏“审阅”下面的“比较”工具栏中,选择“比较(C)”会弹出比较文档工具,将中标单位的投标书作为原文件,将其它单位的投标书作为修订的文件,在比较文档工具中打开,点“确定”开始比较两个投标文件。其次,处理比较结果。比较结果的文件中有紫、黑、蓝三种颜色,其中,紫色表示其它投标人的标书与中标人的表示不一致的地方;黑色表示其它投标人的标书与中标人的表示一致的地方;蓝色表示其它投标人的标书具有的内容在中标人的标书上没有。重点要关注黑色字体部分,因为黑色字体部分是两份标书一致的地方,也就是雷同的地方,很有可能就是串标的证据。将黑色的部分记录提取出来,放到一个新的Word文件中,如果多处有大段的黑色文字,则表明多处雷同。
    3.错漏一致分析。登入OA系统(审计管理系统),打开错别字检测系统。将投标文件对比中的黑色字体的部分拷贝到错别字检测系统中进行检测,该系统会对检测处理的错别字进行统计,并且给出修正提示。然后,将错别字、雷同部分与原始文件进行核对,判断是否由PDF转换引起的错误。
    4.价格趋势分析。抽投标书里面某一子工程的报价表进行价格趋势分析。统计子工程的报价表的价格,对比不同投标人相同子工程的报价表的价格变化,如果发现有规律的呈现某种同增同减变化趋势,则有串标嫌疑。
    
    四、结束语
    相对手工翻阅投标人的资料进行审计,笔者采用非结构化数据分析进行审计具有高效、准确、能落实的特点,这也是在审计中第一次采用计算机技术来对串标问题进行审计。笔者采用非结构化数据分析方法,审计出几家建筑公司的标书中有160多处雷同之处、30多处错漏一致之处,报价相近等问题,雷同错漏一致之处为串标的认定提供了铁的证据。(蒋超博  赵辉)
    
    参考文献:
    [1]赵辉,范志城,许永池,陈波,徐秀星.基于关键字检索的方法在非结构化审计数据分析中的运用[j].中国内部审计,2010-10,58-61.
    [2]冯宇.非结构化数据管理平台研究与建设[j].工业IT与电力工业,2012-10,(2).
    [3]陈金水.非结构化数据存储管理的实用化方法[j].计算机与现代化.2006,(8).
    [4]郑丛旭,高幸.工程投标中串标问题的分析[j].建筑管理现代化.2009,23(3).
    [5]郑冠帮.工程招投标环节串标围标问题分析[j].中国监察.2010,11.
    [6]张贵新.浅谈工程建设领域围标串标问题的治理[j].中国工程咨询.2011,2. 
【关闭】    【打印】