巧用WINRAR和DOS命令处理压缩数据
胥雪刚(审计署驻长春特派办)
【发布时间:2011年05月13日】
字号:【大】 【中】 【小】
    开展计算机审计,首先要取得被审计单位的电子数据,然后将数据标准化,即将被审计单位提供的数据转换成便于审计人员使用的SQL Server或其他数据库格式的数据。因此,计算机审计首先要解决的是数据标准化问题。
    许多商业银行采取按天备份的策略,即将每天产生的数据单独备份(多以压缩包形式)。笔者结合计算机审计工作实际经验,给出一种处理压缩数据的通用方法。即通过对WinRAR格式的压缩数据进行自动解压缩,然后将每天的单个文本文件通过DOS命令合并成大文本文件,以便于对数据的后续处理。
    一、基础资料
    需要从某商业银行取得其某年全年的数据,如2009年1月1日至2009年12月31日的数据备份。该数据备份格式为WinRAR格式,存储方式是按天存储,即每个压缩文件中存储的是该行信息系统各表当天产生的数据。
    二、处理方法
    (一)利用WinRAR的命令行功能处理压缩数据。
    由于数据是按天存储,解开每个压缩文件就能解压缩出当天各表所有的数据。如果是手工解压缩,即通过双击每个压缩文件来解压缩当天的数据,那一年的数据就要通过300多次双击操作才能解压缩完毕,效率低下,容易出现差错,而且浪费时间和精力。
    利用WinRAR的命令行功能,可以将备份数据自动解压缩至指定目录。主要命令如下:“winrar x D:\ 090101-091231\d2009*.tar.Z D:\data2009\”。
    其中“x”表示以完整路径解压缩文件和文件夹;“D:\ 090101-091231\d2009*.tar.Z”则表示压缩文件存储的源路径,用“d2009*.tar.Z”代表目录下的所有文件(*为通配符);“D:\data2009\”表示解压缩后数据文件存储的路径。
    具体操作方法:
    在安装了WinRAR软件的WindowsXP操作系统中,单击“开始”,然后单击“运行”,在对话框中输入“winrar x D:\ 090101-091231\d2009*.tar.Z D:\data2009\”,然后单击“确定”,即弹出WinRAR界面,自动进行解压缩。
        (二)利用DOS命令将文本文件合并成大文本文件。
    由于最终导入SQL Server数据库时需要将每个表以单个表的形式导入,因此要将每个表在300多天形成的300多个小文本文件先按月合并成文本文件,再按年合并成大文本文件。完成对一个表操作命令的编写后,将对所有表的操作命令写成批处理文件,即可自动执行。
    具体操作方法(以4月份数据为例):
    新建一个文本文档,在文档中编辑如下命令:COPY D:\data2009\20090401\aghfh.txt+D:\data2009\20090402\aghfh.txt+D:\data2009\20090403\aghfh.txt+D:\data2009\20090404\aghfh.txt+D:\data2009\20090405\aghfh.txt+D:\data2009\20090406\aghfh.txt+D:\data2009\20090407\aghfh.txt+D:\data2009\20090408\aghfh.txt+D:\data2009\20090409\aghfh.txt+D:\data2009\20090410\aghfh.txt+D:\data2009\20090411\aghfh.txt+D:\data2009\20090412\aghfh.txt+D:\data2009\20090413\aghfh.txt+D:\data2009\20090414\aghfh.txt+D:\data2009\20090415\aghfh.txt+D:\data2009\20090416\aghfh.txt+D:\data2009\20090417\aghfh.txt+D:\data2009\20090418\aghfh.txt+D:\data2009\20090419\aghfh.txt+D:\data2009\20090420\aghfh.txt+D:\data2009\20090421\aghfh.txt+D:\data2009\20090422\aghfh.txt+D:\data2009\20090423\aghfh.txt+D:\data2009\20090424\aghfh.txt+D:\data2009\20090425\aghfh.txt+D:\data2009\20090426\aghfh.txt+D:\data2009\20090427\aghfh.txt+D:\data2009\20090428\aghfh.txt+D:\data2009\20090429\aghfh.txt+D:\data2009\20090430\aghfh.txt D:\d2009\200904aghfh.txt
    上述命令将表“aghfh”2009年4月1日至2009年4月30日产生的数据合并成为一个文本文件,并将其命名为“200904aghfh.txt”,存储在“D:\d2009\”目录下。依此类推,按照上述模式编写对其他表的合并命令。全部编写完成后,保存该文本文档并关闭。重命名该文本文档,可将其命名为“合并200904.bat”(必须将扩展名改为.bat,将文本文件变为批处理文件),然后双击该文件,弹出DOS对话框,开始自动进行按月合并。
    按相同的办法即可将每月的文本文件合并成按年的大文本文件。
    在把所有的表合并完成后,即可对标准的文本文件导入审计人员熟悉的数据库软件进行查询和分析。
    用上述方法处理压缩的文本数据,可大大提高工作效率。(胥雪刚)
    
    
【关闭】    【打印】