~ 严凤斌,邰海军 李会刚 Yan Fengbin Tai Haidun Li Huigang (1.军械工程学院装备管理与指挥系,河北石家庄050003;2.南京军区73041部队装备部,江苏徐州) (1.Department of Equipment Command and Management,Ordnance Engineering College,Hebei Shidiazhuang 050003; 2;) 摘要:标准数据是用于比对发现错误数据记录的一类数据,在病态数据检测中具有极其重要的意义。而目前的标准数据 研究还处于录入数据库阶段,造成调用困难且准确性不高。本文分析了标准数据的收集和变更情况,提出递增式标准数据集合 的方法,并在“工厂字典”的标准数据中进行了验证。 关键词:标准数据集合;病态数据检测 中图分类号:TP311 文献标识码:A 文章编号:1671—4792一(2010)1—0076—03 Abstract:The standard data set is used to find the wrong data record,it is very important to patholog- ical data detection.The current research of standard data is in the stage of input database,leading to transfer hardly and low accuracy.This paper analyses the collection and alteration of standard data,puts forward the idea of incremental standard data set and verifies in the”Factory Dictionary“standard data. Keywords:Standard Data Set;Pathological Data Detection 0引言 等 集合,由于其值域是固定的,因其在逻辑上已经是全 随着信息技术的广泛应用,信息量呈爆炸式增长,同时 集,可以直接确定上报数据的错误属性,本文中称之为固定 这些信息也存在很多的虚假的异常信息,文献[1]将此类定 标准数据集合,类似的如婵位级别字典(DWJBZD) ̄等 用固 义为病态信息,这些信息不能够直接用来决策,必须经过一 定标准数据集合进行检测时,若遇到与标准数据集合不匹配 定的处理,手工的方法对于海量信息的处理显然不可取,因 的数据单元,则判定其为错误数据单元,以待后续修正。而 此依靠计算机编制软件来清理病态信息的方法越来越受到 旺厂字典》,由于其值域是可变的,在检测时通常无法收集 研究者的重视。“标准数据 是指在“病态信息”检测中用于比 到全集,故不能直接确定上报数据的错误属性,本文称之为 对发现错误和异常数据记录的一类数据。为便于标准数据的 可变标准数据集合,类似的如(睃备字典(SBZD)))等。 查找,在病态信息检测中将所有的标准数据构成一个集合, 2相关概念界定 称为“标准数据集合”。现有的标准数据集合还只是通过各个 2.1基本项与变化项 渠道搜集上来之后,简单录入数据库,没有规范统一的数据 可变标准数据集合,顾名思义,其值域是可以变化的,在 结构,造成标准数据的通用性和移植性比较差。本文通过分 逻辑上,可变标准数据集合可以分为基本项与变化项两个部 析标准数据的收集和变更种类,选用递增式标准数据集合的 分。所谓基本项是指在标准数据集合中由系统开发者或维护 方法来解决标准数据收集和结构性差的问题 者确定的集合元素。变化项是指可变标准数据集合值域变化 1举例 的那部分集合元素。就“变化”而言,包括数据的“增加”和“减 如在对“工厂”这~数据项进行检测时,需要与纽:厂字 少”两个方面,特别需指出的是,对于标准数据减少的处理情 典(GCZD)})的标准数据集合进行对照。如果上报数据中被检 况比较特殊,系统只是在对应的值域减小处加以标记,即明 测值在表中被找到,则错误属性为N;如果找不到,则存在两 确数据的有效期,而不是将数据从可变标准数据集合中删 种可能,一是新增加的工厂,二是错误的输入。’即此情况下无 除,这是由统计的需要决定的。 法确定数据的错误属性,错误属性为可疑。上文中所提(顷量 因此需要赋予每个数据有效期属性,需要明确开始时间 和结束时间。在检测时,如果当前时间大于结束时间,即表明 3递增式标准数据集合的结构设计 该数据已失效,文中称此类数据为撤销类数据,如表一所示。 表一撤销类数据表案例 名称 开始 结束 2007 3.1递增式概念的提出 代码 依据 文件 病态数据检测每年都在多个单位进行,上报数据中每年 都存在大量无匹配项。通过上一节的分析,可以得出以下四 点结论:(1)正确项的数据单元的数量不断增加;(2)错误项 的数据单元的数量不断增加;(3)不确定项的数量不断增an; (4)数据减少的部分并不直接删除。 基于以上四点,可变标准数据集合在检测过程中,其数 据单元数量不断增加是主流.本文将这种数据单元数量不断 标 准 3326 机械制造厂 1996 3604 实德机械厂 1996 2010 4306 民生工厂 1997 2004 合同 文件 数 据 集 合 的 分 析 与 设 4901 利军军械厂 1998 2005 文件 增加的可变标准数据集合称为递增式标准数据集合。递增式 计 标准数据集合中数据单元数量的增加是以其基本项为基础 可变标准数据集合不能判定被检测数据单元是否错误, 的,其增加的部分称为增项。基本项的形式应当延续系统开 不是因为“数据减少”,而是由于“数据增加”,因此,重点对 发之初的设计,即保持不变,在此基础上,逐步完善递增式标 “数据增加”进行研究。 准数据集合表结构设计。 2.2匹配项和无匹配项 3.2递增式标准数据集合数据单元的类别属性 数据增加主要通过检测到现有值域以外的数据单元而 递增式标准数据集合中的数据单元应当明确其不同来 发现。本文将检测到的超出现有值域的数据单元称为无匹配 源,以便于对系统的维护。而且,在检测结果的问题列表中, 项数据单元(简称无匹配项)。相对的,检测到的在现有值域 有些问题描述是需要根据数据类别来确定的,因此需要明确 范围内的数据单元,本文称之为有匹配项数据单元(简称有 数据单元类别的划分。递增式标准数据集合数据单元的来源 匹配项)。所谓匹配,即指将被检测数据与标准数据集合中的 有如下几种:基本、新增、更名、撤销、临时,前面几种较容易 数据单元逐一比对后,能够找到与之相符合的数据单元,“匹 理解,其中临时类是指一些难以核对以及未核对的数据,即 配”描述的是一个状态。 不确定项,也是递增式标准数据集合的一部分,称为临时类。 对于无匹配项,只有通过核对才能确定其正确与否。经 临时类数据经过核对后,成为新增类数据单元,新增类数据 核对,正确的数据单元称为正确项,错误的数据单元称为错 单元包括错误数据单元和正确数据单元。新增类中正确数据 误项。有的数据单元核对起来可能很困难,甚至无法核对,这 单元加入到基本项中成为基本类数据,基本类中超过有效期 类数据单元称为不确定项数据单元(简称不确定项)。无匹配 的数据单元和更名的数据单元则分别成为撤销类数据单元 项的分类如图一。本文研究的正确项核对后增加的这一块内 和更名类数据单元。 容,因此忽略错误项和不确定项,但是作为检查历史记录的 需要,这些数据核对的结果仍然需要保存下来。 区 —圃 图一无匹配项的分类 2.3正确项与错误项 图二类别属性与状态属性的对应图 正确项对应的是可变标准数据集合值域增大的那部分 数据单元,正确项应当加入到对应的可变标准数据集合中, 3.3问题描述的设计变更 以便作为后续检测的标准,这样也是实现了可变标准数据集 检测结果的问题描述应当根据递增式标准数据集合中 合的自我完善,减少了当再次遇到无匹配项时的重复核对工 数据单元类别的不同而有所区别。对于基本类和新增类,仍 作。 然按照已有的方法进行处理;对于撤销类和更名类数据的问 用可变标准数据集合检测发现的错误数据,均有规律可 题描述不仅要说明变动的情况,还需要给出变动的依据,如 循。因为各个可变标准数据集合中的数据单元都遵循一定的 “依据某通知,某文件 。 规则,比如:工厂字典中的工厂代码都必须是四位数字(由规 3.5递增式标准数据集合的表结构 定可知)。 标准数据集合的原表结构中,只涉及到被检测数据单元 ~ 的“代码”、“名称”等关键字段,检测结果也仅仅是简单的描 述该数据单元是否存在。 而通过上一小节的分析,递增式标准数据集合在运行过 程中,新增加了若干个属性,所以相应的在递增式标准数据 集合表中需要增加以下几个字段:类别、开始时间、结束时 间、状态属性、出现次数、依据。而且根据状态属性以及数据 类别,需要对问题描述进行更改,从而使问题描述更加准确, 有利于核对、修正工作的开展。 而在实际检测时,只使用部分字段,如:代码、名称、状态 属性、问题描述等字段,而其他字段则在后台运行,作为支 撑。递增式标准数据集合的结构如表二所示。如果数据单元 没有明确“结束时间”,则对应处为空,系统默认其结束时间 值为无穷大,即该数据有效期为无穷。更名类数据在“依据” 中应注明其更名后的名称,便于“问题描述 的生成。结合递 增式标准数据集合的表结构,举例如表三。 表二递增式标准数据集合结构表 类别 属性字段 用途 说明 代码 关键字段 原表 名称 关键字段 属性 问题描述 关键字段 辅助字段 代码 关键字段 检测 名称 关键字段 使用 状态属性 关键字段 问题描述 检测提示 关键字段 类别 显示类别 辅助字段 递增 开始时间 辅助字段 运行 结束时间 标记属性 辅助字段 出现次数 排序依据 辅助字段 依据 确定来源 辅助字段 表三工厂字典递增式标准数据集合案例表 开始 蛄柬 闩蔗 抗春 出现 代码 名韩 囊劓 依据 时问 时问 囊违 一蛙 款鼓 oo 肮天研宄所 斟 l996 有艘 某土件 0167 垒尉机曩厂 alt; ̄ l9g6 有娃 藁土件 0258 早蜃光学位嚣厂 基车 l996 有娃 纂文件 0626 庆毕工^厂 基本 1gg6 有娃 莱文件 141l j[事研究所 基奉 l9% 有殖 某文件 4结束语 通过分析现有标准数据结合存在的问题,本文提出了递 增式标准数据集合的方法,并在数据库中进行了一定的验 证,通过分析验证的结果,递增时标准数据集合的方法,对于 标准信息的管理和维护切实可行。 参考文献 [1]吴建明.病态信息理论及其在装备保障中的应用[D]. 石家庄:军械工程学院,2004. [2]欧渊.武器雷达信息系统病态数据修正方法研究[D]. 石家庄:军械工程学院,2007. 【3J Peter P.Chen.Information Credibility Assess— ment and Metadal ̄Modeling in Integrating Heteroge— neo-us Data Sources.AFRI.一IF-RS-TR-2002-298 Final Technical Report.November 2002. [4]ISO/IEC9594-8/ITU-T Recommendation x.509.Irr- formation technology,OSI-The directory:authenti- cation framework[S].1997. 作者简介 严凤斌(1986一),男,河南周口人,军事装备学专业,在 读硕士,主要研究方向:装备保障理论的发展和应用。