利用商务智能快速匹配单位名称的审计方法
徐磊(审计署长沙办)
【发布时间:2013年09月26日】
字号:【大】 【中】 【小】
随着被审计单位信息化程度的进一步提高,数据来源也愈来愈多,审计采集的数据格式参差不齐,特别是作为关键字段的单位名称叫法不一,对数据比对带来较大影响。现在主要是通过关联比对(join)和SQL语句的like关键字进行模糊匹配。上述两个办法不同程度存在一定缺点,为了能将两者的优点综合起来完成单位名称的比对,笔者经过探索,引入SQLSERVER BI(商务智能)的功能,快速比对单位名称,找出数据差异。该方法在省级审计组推广使用,取得了较好的效果。

下面详细描述一下操作步骤。

一、环境准备

安装SQLSERVER 2005及以上版本,在安装时选择功能组件时至少选择“数据库引擎”、“Business Intelligence Development Studio”、“Integration Services”组件。

二、比对步骤

以A部门提供的单位名称与B部门提供的单位名称进行比对为例,其他字段可认为是单位名称的属性字段。
第一步:利用SQLSERVER导入A和B部门提供的单位名称,为了简化操作,仅导入单位名称字段。
第二步:开始-所有程序-Microsoft SQL Server 2008 R2-SQL Server Business Intelligence Development Studio。
第三步:进入“SQL Server Business Intelligence Development Studio”后,点击“文件-新建-项目-新建Integration Services项目”。
第四步:在左侧“工具箱”中选择“数据流任务”,拖动到中间的“控制流”页面。
第五步:建立标准,该例以A中的单位名称为标准。双击“数据流任务”,进入“数据流”页面,在左侧“工具箱”中选择“ADO NET源”,拖至“数据流”页面。双击“ADO NET源”,配置参数。
(1)配置“ADO.NET连接管理器”:点击“新建(N)…”-“新建(E)…”,输入服务器名称(若为本机输入“.”),选择数据库名,输入完成后点击“确定”。
(2)选择数据访问模式:“表或视图”,选择A部门提供的单位名称表,点击“确定”。
第六步:建立比对,该例以B中的单位名称为比对列。在左侧“工具箱”中选择“模糊查找”,拖至“数据流”页面。选择“ADO NET源”下边的绿色箭头,拖动至“模糊查找”。
双击“模糊查找”,进行参数配置。选择“引用表”页-“生成新索引”-“引用表的名称”,选择B中的单位名称;选择“列”页,勾选“可用查找列”中的“单位名称2”,并拖动“可用输入列”的“单位名称1”到“可用查找列”中的“单位名称2”,建立查找关系,如图1;选择“高级”页,“每次查找输出的最大匹配数”选择“1”,“相似性阈值”选择“0.00”(这一列数据是介于0和1之间的浮点数,用来描述相似程度,相似度是1表明匹配完全成功该值。可根据数据质量情况自行选择)

图1:“模糊查找”-“列”页配置

第七步:导出比对结果。在左侧“工具箱”中选择“Excel目标”,拖至“数据流”页面。选择“模糊查找”下边的绿色箭头,拖动至“Excel目标”。双击“Excel目标”,进行参数配置。点击“OLE DB连接管理器”-“新建(N)…”,点击“浏览”,选择路径、输入文件名(新建)。点击“确定”后回到上级配置。配置“Excel工作表的名称”-“新建(E)…”-“确定”,选择“Excel目标”。选择左侧的“映射”,如图2:


图2:“映射”配置

正常情况下映射关系会自动生成,如果有其他属性值,只需将最终要显示的列从左边“可用输入列”的拖动到右边对应“可用目标列”,形成映射关系即可。其中系统生成的字段“_Similarity”(相似度)表示用来描述相似程度、“_Confidence”(可信任度)是介于0和1之间的浮点数,用来描述匹配的信任程度。Confidence是另外一种形式的相似度,它不是通过一对一的比较得来,而是通过一对多的比较得来。它可以获得更加准确的数据。点击“确定”后,完成比对流程设计工作,最终如图3:


图3:比对流程设计

第八步:点击“启动调试”,运行程序,生成excel结果文件。
第九步:打开商业智能模型生成的excel文件,如图4:


图4:excel结果

其中“_Similarity”(相似度)为“1”的表示完全匹配,“_Similarity”为“0”的表示完全不匹配,“_Similarity”为0-1之间的,如“某投资管理有限公司”与“某市某投资管理有限公司”,相似度为0.71,可信度为0.63,经过人工判断容易得知实际为同一单位。
根据这一原则,“_Similarity”为0 的表示A部门提供的单位名单未在B部门提供的单位名单中。
同理使用这一方法,将标准和对比项修改(第六步、第七步),则可得出相对结果,即B部门提供的单位名单未在A部门提供的单位名单中。当然可以增加“数据流任务”同时完成上述两种比对。

三、小结

数据比对在审计实践中应用非常广泛,特别是中文的模糊匹配一直是个难点。利用商务智能完成快速匹配为解决该问题提供了一种新的思路和方法。(徐磊)
【关闭】    【打印】