运用大数据技术揭示围标串标现象的审计策略与实践

板块:客户案例 发布时间:2024-04-08 15:41:47 作者:王蕾 阅读量:185

摘要: 本文以某市住建局局长经济责任审计为背景,结合大数据技术的应用,依托电子招标系统的后台数据资源,利用标事通标书查重智能化工具,详述针对围标串标问题的审计思路与具体操作流程,旨在为营造建筑领域良好营商环境、构建公正透明的竞争秩序提供参考。

       随着社会主义市场经济的不断发展,招投标制度已成为建筑业实现公平竞争、确保资源配置高效的重要机制。然而,围标串标行为的滋生,不仅侵犯了招标人和其他参与者的合法权益,更严重冲击了行业诚信体系,成为各类审计关注的核心议题。为有效应对这一挑战,本文以某市住建局局长经济责任审计为背景,结合大数据技术的应用,依托电子招标系统的后台数据资源,利用标事通【 标书查重 】智能化工具,详述针对围标串标问题的审计思路与具体操作流程,旨在为营造建筑领域良好营商环境、构建公正透明的竞争秩序提供参考。


一、数据特性与审计难点辨析

    招标投标项目资料通常以压缩文件形式存储于电子招标系统后台,需通过管理员权限下载获取。这些文件囊括项目注册信息、招标公告、招标文件、中标公告及各投标方提交的经济标、商务标、技术标和工程量清单等详细内容,主要采用PDF格式呈现。在针对围标串标问题进行审计时,面临以下三方面难题:


  1. 标准界定模糊:现行法规政策对围标串标行为的判定标准缺乏精细化规定,导致审计过程中难以准确界定文件异常一致的边界。

  2. 数据规模庞大:部分大型、复杂招标项目,其投标文件数据量巨大,可达数GB,包含众多投标单位及技术标中复杂的图文信息,下载速度受限,数据收集效率低下。

  3. 数据结构复杂:技术投标文件普遍采用非结构化的PDF格式,与常用的数据分析工具如XLS表格、DOC文档格式不兼容,直接对比分析困难。

二、审计策略与技术路径

       面对上述挑战,审计团队采用研究型思维,结合大数据技术,构建了一套涵盖标准设定、算法选择、数据预处理在内的围标串标审计框架。


  1. 设定异常一致标准:借助第三方查重平台,量化比较投标文件之间的重复率,对重复率较高的两份文件进行标红处理,进一步识别其中错词错符号的一致性,将重复率与错误一致项数作为评估异常一致性的双重指标。

  2. 选择分析算法:选用基于Java开发的xincheck文本查重软件作为核心算法,利用其内嵌的Spire Doc OCR模块识别PDF中的图片文字,设定连续13个字符相同即视为抄袭的查重阈值。此外,采用WPS文档校对功能精确统计错词错符号。

  3. 实施数据整理:采取虚拟机与多线程技术加速项目文件压缩包的下载,运用压缩工具定位并提取技术标文件,利用批量重命名工具以投标公司名称命名文件,并通过OCR模块将PDF转换为DOC格式,以便后续分析。


三、审计操作步骤详解

     审计团队遵循以下四步流程,利用标事通【标书查重】智能化检查工具,通过对多份投标文件进行上传检查,一键实现对围标串标行为的精准识别与证据收集:



  1. 文本查重与报告生成:启动标事通标书查重软件,可自定义设置查重阈值,采用横向比对模式,指定项目文件夹为待查目录,并在该目录下创建查重报告文件夹。执行查重后,软件将生成详细报告及汇总各技术标重复率的Excel表格,可在线查看,也可下载本地直接修改。


  1. 错词错符号筛选与记录:打开查重报告,可快速定位查看查重位置,运用文字的文档校对功能,列出并筛选出错词错符号,排除非红色标记部分及校对误判词语,将确认的错词错符号高亮显示,并在汇总表格中记录其数量。


  2. 疑点核实与汇总:将查重报告中标识的错词错符号与原始技术标文件进行逐一比对,剔除非OCR识别因素造成的错误,最终形成投标文件异常一致疑点汇总表。




     实际审计结果显示,对某市住建局及其下属二级单位作为业主的25个工程项目进行审计时,发现了5个项目存在围标串标嫌疑,涉及12家投标单位。其中,最严重的案例显示投标文件重复率高达99%,除公章外内容完全一致,且错词错符号一致之处多达7处。


    综上所述,通过科学设定判断标准、精挑细选分析算法、高效组织数据整理,并严谨执行审计步骤,大数据技术在查处围标串标行为中发挥了关键作用。此案例的成功实践为同类审计工作提供了有效的策略指导,有助于维护建筑行业市场秩序,强化公平竞争环境的构建。


免费试用软件,请添加龙小标:


 

标签: 围串标标书查重

来源:标事通

Hi,我是你的专属顾问
立即扫码,抢先咨询
预约演示申请