1 海洋观测数据
1.1.背景和必要性
通过对海洋实施长期、定点、连续、多要素的监测,能够得到大量的海洋观测信息,
这些信息对于海洋资源开发及有效管理、保障海洋环境安全起到重要的作用。但是,这
些海洋观测资料来源不同、类型不一、结构复杂,还有各种海洋观测系统提供了互补的
多变量观测资料,其中存在着大量有用信息可以为海洋预报提供初、边值,为海洋科学
研究提供高质量的、时空分布均匀的再分析资料集,并且给观测定位以及对计划的观测
系统进行客观的评价。因此,海洋观测信息的集成与智能管理研究可以最大限度地提
取观测数据中所包含的有效信息,提高和改进分析与预报系统的性能,并在此基础上做
出准确的预测、预报、警报和对策建议,帮助人类深刻认识和掌握自然灾害形成和发展
规律,这对于沿海地区防灾减灾、保障公众健康和社会稳定具有重要的作用。并且,还
可以及时了解和掌握海域的环境质量状况及其变化趋势,从而有针对性地开展海洋环境
保护工作,为海洋环境保护中涉及到的立法、规划、标准、评价、管理、治理、恢复以
及建设等各个方面工作,提供必要的资料和依据,有效地对海洋环境加以保护【1】。
近几年,随着海洋观测技术与设备的不断发展及更新换代,观测设备的广泛部署,
观测数据数量激增,数据背后隐藏着许多重要的信息,如何对其进行更高层次的分析,
以便更好地利用这些数据,变得越来越重要。因此,研究与开发创新性的数据处理、信
息集成与管理方法与技术成为当代海洋科学的首要问题。目前,世界各国的海洋科学家
以及相关领域的研究者对于数据处理与信息集成的研究如火如茶,主要目的是为了更加
有效地分析与利用数据,提高海洋灾害的监测与预报能力及精度。如数据预处理技术、
数据同化技术、数据融合、信息集成以及灾害预警应用系统等为当前研究的重点难点。【1】
海洋信息是开发海洋、建设海洋、管理海洋的重要基础。海洋信息资源己经
在海洋管理、生产、科研和国防建设等多个方面发挥巨大作用。科学的海洋管理
要以及时、海量的海洋信息资源作为基础。科学的、准确的、翔实的海洋数据信
息,是实现科学管海的重要依据。通过实现海洋信息化管理,建立全面、详细的
海洋信息元数据库,可以为海域使用管理、海洋环境保护和海洋资源管理工作提
供有效的决策辅助工具,从而实现海洋管理的科学化、规范化。【1】
1.1.1数据的异构性
海洋环境数据相比于其他行业有明显的异构性,丰要表现在如下方面【2】:
(一)数据来源的多样性
海洋环境数据来源的多样性,是海洋环境数据异构性的丰要表现,也是造成海洋数据异构性的最根本原因。海洋环境数据的来源目前丰要有现场观测调查、遥感测量和数值模拟三大类。
(二)数据存储格式的多样性
存储格式多样性是海洋环境数据异构性的最直接体现。不同的测量仪器和测量于段、不同的计算方法和工具、不同的数据标准都造成了数据格式的异构。
1.由于测量仪器和测量手段造成的数据格式异构
2.由于所用的数据处理工具和方法造成的数据格式异构
3.由于采用不同的数据标准造成的海洋数据格式异构
(三)数据环境数据的多时空和多尺度性
海洋环境数据具有很强的时空特性。海洋的变化性比陆地要明显的多,一般情况下,可以认为海洋是时刻变化的,几个小时甚至几十分钟的时间内,海洋的各种属性值的变化都是不可忽略的,因此海洋空间数据的时空性是非常明显的。另外,海洋空间数据测量的于段决定了海洋空间数据的多尺度性,多尺度包括时间多尺度和空间多尺度,时间多尺度表现在测量数据的时间序列间距的不同,如:有些测量点每小时测一次数据,有些一天测一次甚至更长时间;空间多尺度表现在数据测量的精度方面,如:海洋遥感数据来源于不同的卫星,因其空间分辨率不同,造成了海洋空间数据的空间多尺度性。不同环境属性数据采集的传感器各不相同,甚至传感器搭载的卫星平台也不~样。另外,因为装载传感器的空间运载工具——卫星平台不同,传感器扫描地球表面的轨迹和周期都有很大的不同。就是同一种传感器如
果安装在不同的卫星上,比如说Jason和ERS-2上都有微波高度计,但是由于卫星运转轨道的不一样造成了数据采样的时空分布的完全不同。更有甚者安装在ERS-1上的微波高度计由于在不同的阶段任务不同,其扫描地球表面的轨迹也不一样。由于传感器和卫星
平台的不同组合,造成了卫星遥感数据时空采样方案的复杂多样,因此也给很多的用户使用卫星遥感数据带来了不方便和网难。
(四)海洋环境数据多级别性
从数据应用的角度来说,不同类型的用户因为任务层次的不同对卫星遥感数据的要求差别很大。作为数据的最终用户的三大类:①公众;②管理与生产作业部门;③从事科学研究的专家学者。显然他们所关心的数据产品级别会有很大的区别。另外,专家学者在为某个特定研究专题准备数据时必须先对数据进行各种预处理和转换,有时候对多源数据产品进行比较或者融合也是必需的。从数据的生产和分发过程来说,不同级别数据的内容、质量以及附加信息都有很大的区别。数据牛产部门出于对数据实时性、质量、保密性以及不同的用户对数据的不同需求等方面的考虑会推出具有不同牛产周期的各个级别的数据产品。对各个级别的数据标准的定义不同的单位不尽相同。表2-2列出了美国国家航空航天局(NASA)的卫星遥感数据产品级别的标准。
(五)海洋数据分类标准的多样性:
海洋数据的分类标准有很多种,每一种分类标准都针对一定的目的,由此也就造成了不同的分类结果。如按照学科划分,可以将海洋环境数据类型分为海洋物理、化学、地质、生物、渔业、气象等诸多领域;如果按照海洋数据的时空形态来划分,则可以划分为海洋场数据和海洋点数据;在物理海洋学中为了研究的方便,一般将海洋数据类型分为海洋要素数据和海洋现象数据。
1.1.2 海洋环境数据集成的迫切性
首先,从海洋环境数据集成本身来讲,没有统一的集成模式。这给海洋数据的综合分析及向更高一级的应用造成障碍。
其次,海洋环境数据存储格式的多样性给海洋科研人员应用数据造成闲难,如:若想研究某缚区温盐情况,研究人员必须熟悉CTD、BT、ARGO等文件的数据格式,否则工作无法延续,这显然是不现实的。
第三,目前海洋观测数据大都存储在文件中的,以目录或文件的方式存在,数据的抽取和分类工作难以进行,因此海洋观测数据的利用率及其低下,这和海洋实测数据的昂贵代价形成鲜明对比。
第四,海洋环境数据还存在海量的特点,其中存在大量的多对多或一对多的关系,以文件为丰的件理方式根本无法满足要求,且对存储空间形成很大的浪费。
第五,海洋环境数据具有很强的区域性,将海洋环境数据按空间地理位置进行组织是数据集成中不可少的内容,但按甘前的海洋环境数据竹;理方式实现起来比较困难。
第六,随着网络的飞速发展和普及,信息共享已经成为一种必然的要求。海洋环境信息也不例外。海洋环境信息要进一步发展,必须完全融入大型MIS(符理信息系统)中,而目前海洋环境数据的文件饩’理方式显然跟不上这个要求。
最后,数据冗余是目前数据管理方式最大的问题。
1.2 数据集成概述
数据集成用来对各种异构数据提供统一的表示、存储和管理,这些功能在异构数据
集成系统中实现。数据集成屏蔽了各种异构数据间的差异,通过异构数据集成系统统
一操作,因此集成后的异构数据对用户来说是统一的和无差异的。总的来说,数据集成
的目标是为了实现各个异构数据源之间的数据共享,有效地利用资源,提高整个异构数
据集成系统的性能。而数据集成的理想目标是在分布式环境下给用户提供一个单一系统
的映像。这意味着各个数据源之间的互相作用必须透明地进行。异构数据集成是一项相
当复杂的技术,由于异构数据源和异构数据之间的众多差异,使得异构数据集成成为一
个难以解决的问题。然而海洋信息要真正实现共享,必须解决数据多格式、多数据库集
成等瓶颈问题。海洋灾害预警系统的研究与应用海洋数据集成的研究有以下发展趋势
:l)网络化;2)集成机理与规范标准化;3)集成知识规则的专家系统化。【1】
国内学者张维民对信息集成系统的定义为:为实现某一目标丽形成的一组信息单位的有机集合,而系统本身又可作为一个信息单位参与多次组合,这种组合的过程可以概括地
称为信息系统集成(张维民,2002)。在这个定义中,把信息集成看作是多个信息单位的有机组合,如公式所示【2】:
信息系统集成={信息单位i(i=l,2,…,n)}
1.3 海洋信息集成的发展
1960年正式成立的国际海洋资料交换委员会(IoDE)促进国际间海洋资料交换工作的开展,并进行了编码资料格式的标准化工作,为各国国家海洋中心(如Nooe、JoDe和Kooe等)资料共享起到了重要作用。20世纪50年代后期,由于计算机和信息技术的发展,海洋资料信息共享服务己从单一资料服务方式逐渐向产品化、可视化、网络化等方向发展。目前,先进国家的海洋资料信息共享平台的可视化技术已基本实现了海洋信息产品由数字向图形,由平面向立体,由单色向彩色的转变。然而,海洋学科内容丰富,涉及到海洋物理、海洋生物、海洋化学、海洋气象、海洋经济、海岸带等许多研究领域,不同的领域数据采集的设备不同,信息处理的平台不同,数据存储的格式也不同,致使数据很难实现交换和共享。联合国科教文组织(UNESCO)的国际海洋资料交换委员会,自成立40多年来,一直致力于海洋数据格式标准化研究,旨在简化数据交换,推动全球海洋技术的发展,但由于种种原因未能取得成功。自1998年2月,Web技术标准化集团 W3C(World Wide Web Consortium,万维网联盟)推出可扩展标记语言 XML (extensible Markup Language)以来,国际上一些海洋强国及研究机构逐渐意识到XML技术在处理多种格式的海洋数据、简化数据交换方面存在着巨大潜力【1】。
目前对多源空间数据无缝集成的研究主要有三种模式【1】:
(l)格式转换模式
把其他格式的数据经过专门的数据转换程序进行转换,变成本系统的数据格式,这是当前一些系统共享数据的主要办法。许多系统为了实现与其他软件交换数据,制订了明码的交换格式,实现不同软件之间的数据转换。
(2)数据互操作模式
它是 OpenGIseonsortium(oGe)制定的规范。ooe是为了发展开放式地理数据系统、研究地学空间信息标准化以及处理方法的一个非盈利性组织。Gls互操作是指在异构数据库和分布计算的情况下,Gls用户在相互理解的基础上,能透明地获取所需的信息。 OGC为数据互操作制定了统一的规范,从而使得一个系统同时支持不同的空间数据格式成为可能。根据OGC颁布的规范,可以把提供数据源的软件称为数据服务器,把使用数据的软件称为数据客户,数据客户使用某种数据的过程就是发出数据请求,由数据服务器提供服务的过程,其最终目的是使数据客户能够读取任意数据服务器提供的空间数据。oGC规范基于oMG的CORBA、
Microsoft的oLE/coM以及sQL等,为实现不同平台间服务器和客户端之间数据请求和服务提供了统一的协议。
(3)数据直接访问模式
在一个系统中实现对其他软件数据格式的直接访问,直接数据访问不仅避免了繁琐的数据转换,而且在一个系统中访问某种软件的数据格式不要求用户拥有该数据格式的宿主软件,更不需要该软件运行。直接数据访问提供了一种更为经济实用的多源数据共享模式。
直接数据访问是利用空间数据引擎的方法实现多源数据无缝集成。由于针对每一种要
直接访问的数据格式,客户软件都要编写被访问的宿主软件数据格式的读写驱动,即数据引擎,所以直接数据访问同样要建立在对要访问的数据格式的充分了解的基础上,如果要访问的数据格式不公开,就非破译该格式不可,还要保证破译完全正确,这样才能真正与该格式的宿主软件实现数据共享。如果宿主软件数据格式发生变化,各数据集成软件不得不重新研究该宿主软件数据格式,提供升级版本,而宿主软件的数据格式发生变化时往往不对外声明,这样,其他数据集成软件数据格式的数据的处理必定存在滞后性【1】。
1.4 信息集成的目的
信息的集成化管理就是在相对的管理平台上,对信息资源进行跨越网络、系统、数据库和应用各个层次的全方位管理、分析和整合,提高信息资源的利用率,最大限度地深层次开发利用现有信息资源。其主要目的是:通过统一的信息资源平台,建设信息资源的一个存储应用中心,防止信息孤岛的形成,并在此基础上建立一个多渠道的信息共享空间,在规范化和安全化实现信息自由流动的同时,加强与外部有效信息的交流和沟通【1】。
集成化综合体现了系统方法中整体性和最优化这两个基本原则:l)整体性原则,就是把对象作为由各个组成部分构成的有机整体,研究整体的构成及其发展规律;2)最优化原则,就是从多种可能的途径中,选择出最优化的系统方案,使系统处于最优状态,达到最优效果。最优化是自然界物质系统发展的一种必然趋势,而实现系统整体功能最优化的关键在于选择最佳的系统结构。集成化实际上促进了信息系统开发技术研究从“事务中心论”向“系统中心论”的根本性转变。由于信息系统组成结构中数据处于核心地位,数据结构是稳定的,而事务处理是多变的,所以,这种“系统中心论”就实际上被“数据中心论”所替代。目前,在现有的任何信息系统开发方法学,“以数据为中心”都是其根本的支柱性原则。在信息系统中,集成化性能的主要关键性标志就是“数据性”、“数据稳定性”和“数据共享性”
的实现程度一一数据集成。数据结构相对于处理程序的性,是数据稳定性的外在表现形式,数据稳定性是使数据具有相对于处理过程性的根本保证。数据共享性是建立在较高程度的数据性和数据稳定性基础之上的系统性能,它是系统集成化所追求的根本目标性能【1】。
首先,集成的目的是便于信息共享。通过信息集成,可以避免重复劳动,节省劳动时间。举例来说,对于广大科研工作者,如果要调研某一主题的国内情况,需要查找、阅读大量别人已经发表的科研成果文献,在没有对这些成果文献集成前,需要分别登陆到各个期刊网或于工在相应的纸质杂志里查找,这无疑是费时费力,而且查找的结果也不全面。现在由于信息集成技术的出现,人们可以方便的在诸如中国期刊全文数据库、维普全文电予期fU、ACM数据库等图书馆提供的期刊、论文数据库里查找,大大节省了资料收集时间,从而可以把宝贵的时间和精力放在科学研究本身上【2】。
其次,信息集成的目的在于信息挖掘。对一个组织或企业来说,把所有相关的信息放到一个单独的地方进行深入分析,从大量的、综合的、历史的信息中,抽取出潜在的、有价值的知识(模型、规则或规律),从而为单位创造出更大更多的效益。这方面最经典的例予是“尿布与啤酒”的故事,即世界著名商业零售商连锁企业沃尔玛(wall Mart)利用信息集成和数据挖掘技术得到一个意外发现:“跟尿布一起购买最多的商品竟是啤酒”,于是在一个个门店里将尿布和啤酒并排摆放在一起,结果使尿布和啤酒的销售量双双增长【2】。
再次,信息集成的目的在于发挥系统的整体效益。在Weston对信息集成的解释
中,“集成包含功能交互(Function)、信息共享(Is)及数据通信(DC).”(Weston,1995),已经强调“信息共享”和“功能交耳.”,强调“协同工作”。组成系统各个部分集成在一起的功能应大于各组成部分单独功能之和,即“1+1>2”【2】。
1.5 信息集成的热点和难点
信息集成的主要问题是信息的异构问题。Sheth将信息系统的异构性分为四个层次:系统、语法、结构和语义(Sheth,1998)。系统级的异构指不同的丰机、操作系统和网络:语法级的异构是指数据类型、格式的差异:结构级的异构是指数据结构、接口和模式上的不同:语义级的异构则是指在一定领域内专用的词汇意义的共享和交流。YBishr提出了信息系统存在语义,视图和语法三个层次差异,并做了详细的分析(YBishr,1999)。语义层次(Semantic)指一个概念有多种事实描述:视图层次(Schematic)一个事实被描述为不同的概念成分;语法层次(Syntactic)则指构造结构的不同。0GC把地理信息系统集成与互操作分为三个层次:数据层、语法层和语义层。前两种丰要由数据结构、概念模型和软硬件环境的差别引起的,可以通过统一数据结构标准和服务功能原了化,模块化以及开放接口标准来解决。而语义层
集成和互操作就相对复杂的多,目前有许多研究利用本体理论来进行。
1.6研究的发展趋势
随着Iniernet技术的飞速发展,用户通过hitemet快速、准确地获取和共享信息己是大势所趋。海洋数据集成的研究有以下发展趋势【1】:
1) 网络化:数据的分布式特征及项目需求数据的多元化,使集成应用项目涉及的部门、内容越来越复杂,要求在集成中能快速使用物理上分布于各个节点的数据,各类网络的建设为数据的网络化集成提供了条件;
2) 集成机理与规范标准化:网络、计算机及数据库技术只是为数据集成提供了可能性,
而其集成的真正实现与海洋数据的自身特征分不开,而有关海洋数据表达、组织、抽象等问题远没有形成有效的方法。因而基于认知科学、集成机理、集成规则标准、普遍意义的集成方法等仍将是数据集成研究的主流;
3) 集成知识规则的专家系统化:集成中用到的诸多知识规则不可能让数据用户全部掌握,而数据集成应用中又离不开这些规则,如何将各类集成中知识规则转化成数据用户可操作的专家系统必将是数据集成研究的另一个方向。
1.7 海洋信息共享平台概况
在海洋数据共享建设方面,国外有较大发展,产生了许多数据共享平台,并且得到了极好的应用,如:美国国家海洋数据中心(Nooc)、日本国家海洋数据中心(JODC)、英国的国家海洋数据中心(BODc)等。1 9 5 5年9月,国际科合会理事会(I C S U)国际地球物理年(I GY)特别委员会针对当时的数据需求通过了建立世界数据中心(W D C)的决议。当时,地球物理学的发展已使得传统的数据系统方式显得陈旧落后。由美国国家科学院提供资助建立了数据中心,命名为wD c—A,由前苏联科学院组建了wD c-B,在几个欧洲国家及日本年u澳大利亚也相继建立了分学科中心,形成了w D C-C。全球数据中心(wDC)网络系统把海洋
资源信息网列为网络主要部分。由NOAA负责的站点
http://www.nodc.Naaa.gov/nodc.dataexch.html,可以提供美国和全球有关海洋研究的数据,并完成本国观测区域与世界其它区域数据的合并和拼接工作【2】。
国家海洋信息中心根据我国多印积累的海洋数据资料,建立了中国海洋信息基础网,对大量的海洋数据进行管理和分发,拥有国内外海洋调查数据和国内海洋站资料、海浪资
料、海洋化学数据.海洋地质、海冰、海洋生物资料,海洋污染情况凋查数据等。WDC—D海洋学中心是继美国WDC-A、俄罗斯WDC-B海洋学中心之后的第三个世界资料中心、海洋学中心,拥有其长期稳定的国内海洋基础资料来源。2001年起,中国科学院海洋研究所、中国老教授协会海洋分会国际海洋信息共享委员会和天津市科技协会国际海洋信息研究中心联合开发了“中国近海及毗邻洋区国际海洋信息管理系统”。该系统的建立和逐步推广应用,为海洋信息处理和错情分析、诊断技术的发展,中国近海资料处理标准的建立,以及海洋科学研究的发展起到积极的促进作用【2】。
另外。在学术方面,近年来一大批关于海洋数据平台建设的文章发表(杨晓梅,2002;王敬贵,2002;陈加兵,2002,杜云艳,2003,2004;李安虎,2004;郭忠文,2006)。2005
年,作为国内首次针对海洋数据集成的专著《海岸带及近海科学数据集成与共享研究》问世(杜云艳,周成虎,苏奋振等,2005),本书旨在围绕海岸带及近海多源数据的集成与共享,从底层数据实体的设计、建设,数据技术系统的研发,多源、多格式数据的集成与发布等多方面探讨数据集成的难点和欲解决的新思路及关键技术【2】。
1.8 与国外研究水平的比较
与我国快速增长的海洋经济对海洋信息的需求相比,特别是与世界先进国家相比,在海洋信息资源的开发利用水平和信息获取、处理和更新的技术水平、管理和服务等方面存在很大差距。主要归纳为以下几个方面【3】:
(1)在数据获取能力方面,经过多年来的建设,国家海洋主管部门已经初步建成由海洋站、浮标、调查船、海监船、海监飞机、海洋卫星等组成的立体海洋监测体系,
具备了一定的信息获取能力。但尚缺乏完善的海洋信息资源管理,未形成高效运转
的信息处理与交换体系,涉海部门间缺乏有效的海洋信息资源管理协调机制,各类海洋
信息资源共享的渠道不畅通,一些海洋信息资源现状不清,相当一部分宝贵的海洋信息
得不到充分利用,无法实现全社会的共享。因此,急需对信息进行统筹规划,制定相关
信息处理与交换的标准规范,强化信息管理,充分发挥其价值;
(2)在海洋信息规范与标准体系方面,虽然多年来针对海洋资料制定了一些相关的标准与规范,但相当一部分海洋信息标准不一致,如国家、地方、城市之间的空间定位基准(平面和高程)、数据标准、信息交换标准不统一,导致现有标准和规范得不到有效的推广应用。海洋数据用户面对的数据集和数据格式比较混乱,导致海洋信息兼容性、可比性差,利用率低,其完整性、可比性和权威性也得不到保证;
(3)在数据库建设方面,通过多年来的努力,利用海洋勘测、调查以及长期观测获得的数据,我国初步建成了1:100万和l:50万海洋基础地理数据库和海洋学科要素基础数据库系统。但海洋信息资源缺乏系统规划和整合,系列化程度和业务化运行能力不足,信息资源相对分散,低水平重复建设浪费严重,造成入库信息不完整,大多数现有的海洋数据库系统仍处于原始的离散状态,系统的性能和功能较差,不能满足海洋信息共享服务的
需求,国家急需的对海洋开发、海洋综合管理等起支撑作用的有效信息也未被充分提取使用,还没形成支撑海洋综合管理的系统的基础信息平台和数据仓库体系;
(4)在网络服务平台建设方面,我国先后开通了“中国海洋信息网”、国家海洋局网站和各业务中心网站。在海洋管理和监测数据传输方面,通过国家计委专项等项目的实施,初步建成了海洋站与志愿船观测系统监测数据通信网、海洋卫星数据传输系统,具备了一定的监测数据通信与传输能力。但网络传输与网络服务能力明显较弱,网站服务功能急需加强,尚未形成支撑海洋管理的、连接国家和地方海洋管理部门的、统一的通信网络平台;
(5)在专题信息系统建设方面,经过多年努力,我国海域管理信息系统已经服务于海域使用管理、海洋功能区划管理、海岛管理、海底管线和人工设施管理等日常的海洋管理业务;海洋划界管理信息系统也已在北部湾中越海上划界及其他海洋划界方案研究中得到应用;海洋环境管理信息系统、海洋执法监察管理信息系统等都已进入试运行阶段17】。我国的海洋业务管理系统已经进入了一个完善和发展的阶段,正有力推动着我国海洋管理技术水平的不断提高。但我国的海洋业务管理系统建设也还存在严重的不足,突出表现在缺乏统一性和系
统性两个方面。所谓缺少统一性,指各业务系统基本处于开发、孤立运行、非定常维护的状态,既导致工作上的重复和浪费,也不利于技术的提升。
2 海洋信息的集成系统框架
数据格式转换原理【8】
1直接数据格式转换法
直接数据格式转换的基本原理就是将原数据格式文件直接转化为目标数据格式文件,中间不需要任何中介,只是需要两个数据格式文件间的转换程序。原理示意图如图,
图 直接数据格式转换法示意图
这种数据转换方法的优点是,数据转换程序可以将原数据文件中数据的类型、属性和关系直接转换成目标数据文件的记录格式,这样保证了原数据文件能够完整地转换到目标数据文件。其缺点是,任意两种数据格式文件之间进行转换时,都必须编写特定的格式转换程序,由此增加了工作的强度。
2中间数据格式转换法
中间数据格式转换法的基本原理是以某一数据格式文件为中介,将数据从原数据格式文件转换到目标数据格式文件,如图3-3,中间数据文件主要是用于调整原数据文件到目标数据文件之间的转换,任意两种数据格式文件通过此中间数据文件都可以进行转换,从理论上讲减少了一定程序的工作量,但是很难编写这样一个完善的中间数据文件来容纳所有的数据格式,从而保证任意两种数据格式文件之间能够转换。
3.3.3标准数据格式转换法
标准数据格式转换的基本原理是设计一个标准数据格式来作为中介,将原数据格式文件转换到标准数据格式文件,然后标准数据格式文件再转换到目标数据格式文件,如图,
图3-4标准数据格式转换法示意图
设计的标准数据格式应该是多数系统都能支持它的读写操作。一个系统只要能支持此标准数据格式,就能同其他系统方便地进行数据格式的转换,但从另一方面讲设计一个标准数据格式又会了数据转换的灵活性。如何设计一种标准海洋数据格式,已经成为海
洋数据共享的一个重要研究方向。
2.1 基于XML技术
2.1.1基于XML的多态异构海洋信息集成【1】
XML通用的一个重要原因是它具有强大的数据描述能力。XML是一种元语言,也就是定义语言的语言,它采用一种结构化的数据格式,可以存储复杂的数据。XML文档的内容与格式分离,易于被机器读取和处理,通过一个XML文档就可以把数据信息的内容、结构和含义完整地表达出来,可以用文档类型定义(DocumentType Definition,简称DTD)或者 XML schema定义XML文档的结构,而使用可扩展样式语言 (extensible style sheet Language,简称XSL)来指定XML文档的显示样式。目前,XML可以作为一种通用格式在系统之间进行数据传递,因此,XML已成为Internet环境下事实上的数据表示和数据交换的标准【1】。
目前,国际上两大海洋XML研究组织SGXML和EU Marine XML在海洋数据格式标准化制定方面已取得很大进展。海洋XML标准制定主要集中于三个领域:参数字典开发、海洋数据描述、元数据。现已完成多个参数字典之间映射的XMLSchema,英国海洋数据中心(British Ocean datacenter,BODC)参数字典也己得到进一步完善;“KeeleyBrieks,’理论实现了多种仪器测量的海洋数据XML统一;关于元数据,各研究组织一直在对已有标准如
ISO-19115,EDMED等进行比较、优化,希望做出最优的选择【1】。
海洋XML是一种基于XML的封装海洋数据的新兴技术,它具有提供存储、传输、显
示和发布海洋数据的高效手段的潜力。对于现存的海洋数据格式和海洋信息系统以及未来种类繁多的海洋信息产品,海洋XML都将提供良好的支持,极大地提高海洋信息产品的开发效率,为各种海洋信息产品提供开放的数据交换接口标准【1】。
目前,澳大利亚、加拿大等海洋国家针对各国海洋XML具体应用,提出了相应的解决办法,取得了一定的研究成果。澳大利亚海洋学数据中心(AODC)根据XML结构化的树型存储结构以及深层次的嵌套表达特点,将海洋原始数据、质量控制、编辑修改数据等各种海洋观测记录和元数据封装起来,放在一个XML文档里。这种结构可以灵活地将数据连同时间、空间信息封装在数据记录中,将负责人、数据来源、数据质量等细节信息进行编码,同时将格式描述出来,极大地方便了对海洋数据的集成化管理【1】。
三个部分:信息资源层、信息集成层、服务应用接口层。
上面海洋综合观测信息集成可以实现:
l)数据管理与应用系统相对:海洋观测环境千变万化,不同观测区域甚至同一观测区域需要不同的技术组合,不同专业的研究人员对已有的数据都可能有不同的使用方式,海洋观测新技术、新方法更是日新月益,因而,海洋信息应用是多变的,甚至是不可预测
的。另一方面,海洋综合观测数据具有、多源、多类、多量和多主题的特征,多学科的研究成果也具有多种多样的表现形式。为使系统具有较好的适应性,可采用标准化系统连接技术开发数据库引擎并构建数据平台,通过数据平台连接数据库与应用系统,形成多库联合、多向流通的信息,减少数据和应用之间的依赖程度,保证数据与应用系统相对。
2)数据集市:面向海洋综合观测的数据集市不必统一管理观测到的全部数据,但必须具备多种形式、多种格式、多种来源数据的集成与管理能力,从专业基础数据库、海洋观测主题数据库提取数据的能力,以及数据挖掘能力。因此,海洋综合观测的信息集成应以数据集市为依托。
3)多层次的开放性:应采用标准关系数据统一存储、管理空间数据和属性数据,以及采用标准化系统连接技术构建数据平台,实现底层数据库的开放性、可共享性,提供多种文件格式的输入输出接口,实现多源数据的集成。
2.1.2基于 XML 的海洋数据交换【6】
基于 XML 的海洋数据交换系统主要解决三方面的问题( 1 ) 针对海洋信息的数据特征
和语义研究并设计一套适合于海洋信息管理的 XML 应用标准 (XML DTD, XML Schema) 这个标准是海洋数据交换系统的基础( 2 ) 研究传统数据到 XML 数据的转换算法主要包括关系数据库到 XML DTD/XML Schema的转换规则对象数据库到 XML DTD/XML Schema 的转换规则应用系统中格式化文件数据到 XML DTD/XML Schema 的转换规则HTML 文档到 XML DTD/XML Schema的转换规则( 3 ) 设计开发基于 Web
的海洋数据转换应用系统该系统同时为各个海洋应用单位和海洋应用信息系统提供各种方便的 Web Services 接口。
2.1.3 基于XML的海洋遥感卫星数据规范化【12】
海洋遥感数据主要包括两类,即海洋遥感原始数据(Raw Data)和海洋遥感产品数据
(Product Data)。但是不同生产厂家从商业利益考虑对Raw Data采用了不同的数据存档方式,这就为使用带来很多困难。XML技术在处理多种格式的海洋数据、简化数据交换方面存在着巨大潜力,随着xMLl6J技术的发展,一些数据格式方面存在的问题可能会得到解决。鉴于目前地面接收站使用的主要是Raw Data数据格式,本文通过对多种数据格式进行分析比较,提出一种基于XML的通用Raw Data数据格式,并对产品数据使用元数据进行统一描述。
这种通用海洋卫星遥感原始数据的存储分为两部分,即数据头信息部分和数据段部分。在数据头信息部分,存储的是与遥感卫星数据相关的必要信息,如数据格式编号、接收站信息、数据块信息、以及记录起始和终止日期、时间等。数据段部分,由若干个数据块组成且数据块大小固定,每个数据块也分为两部分,即数据块头和卫星数据(基带数据)。对
于每个数据块头,存储的是不可缺少的辅助信息,如记录的起始时间以及通道。
图1为基于XML通用海洋卫星遥感RawDam数据格式根节点的内容模型。
2.2 基于数据仓库的海洋环境数掘集成研究
2.2.1 数据仓库及其特征
数据仓库的创始人w.H.Inmon将它定义为:数据仓库(Data Warehouse)是支持侍理决策过程的、面向丰题的、集成的、随时间变化的、但信息本身相对稳定的数据集合(Bill Inmon,1993)。从这一定义可以看出,数据仓库应由如下四个基本特征【2】:
1.数据仓库是面向主题的
在关系数据库基础上建立的各个应用系统,由于功能单一和过于规范,只能回答很专门、很片断的问题。在这类应用中,数据的组织方式(数据结构、索引、编码和访问方式等)
只对单一应用是最优的。数据仓库需要为决策提供综合信息,这类信息的组织应当以企业中业务工作的丰题内容为u辛线,因为只有这样的组织方式能提供信息的全方位可用性。
2.数据仓库是集成的
来自外部信息源的信息不会原封不动地进入数据仓库,而必须进行必要的变换和集成以增强其可用性。在创建数据仓库时,信息集成的工作包括格式转换、根据选择逻辑消除数据冲突、运算、总结、综合、统计、加时间属性和设置缺省值等工作。还要将原始数据结构做一个从面向应用到面向主题的大转变。
3.数据仓库是稳定的
它反映的是历史信息的内容,而不是处理联机数据。事实上,任何信息都带有相应的时间标记,{u在文件系统或传统的数据库系统中,时间维的表达和处理或者是没有显式化或者是很不自然。在数据仓库中,数据一旦装入其中,基本不会发牛变化。数据仓库中的每一数据项对应于某一特定时间。当对象某些属性发牛变化,则牛成新的数据项。这就使得信息具有稳定性。
4.数据仓库数据是随时间不断变化的
数据仓库中的数据不可更新是针对应用来说的,也就是说,数据仓库用户进行处理时是不进行数据更新操作的。但并不是说,在从数据集成输入数据仓库开始到最终被删除的整个数据牛存周期中,所有的数据仓库数据都是永远不变的。数据仓库的数据是随时间而不断变化的,这一特征表现在以下三方面:1)数据仓库随时间变化不断增加新的内容2)数据仓库随时间变化不断删去旧的|』!|容;3)数据仓库中包含大量的综合数据,这些综合数
据有很多与时间有关,如数据经常按照时间内段进行综合,或隔一定的时间片进行抽样等。
数据仓库比数据库更适于海洋环境数据集成,是有如下原因决定的【2】。
1.海洋环境数据是分析性数据而不是操作性数据
w.H.Inmon在其”BuiIding The Data WareHouse”(《建立数据仓库》)一书中,列出了操作型数据与分析型数据之间的区别,也就是数据库与数据仓库的丰要区别,如表2—3所示。显然,在数据集成中,海洋环境数据是综合的、代表过去的、分析驱动的数据,是典型的分析型数据。
2.对海洋环境数据的操作多是OLAP而不是OLTP数据处理大致可以分成两大类:联机事务处理OLTP(On-Line Transaction Processing)、在线分析处理OLAP(On-Line Analytical Processing)。OLTP是传统的关系型数据库的丰要应用,主要是基本的、日常的事务处理,例如银行交易。OLAP是数据仓库系统的丰要应用,支持复杂的分析操作,侧重决策支持,并且提供直观易懂的查询结果。
3.海洋环境数据的集成过程更接近数据仓库的构建。
2.2.2 海洋数据仓库系统结构
数据仓库的数据来源于多个数据源,包括企业内部数据、市场调查报告及各种文档之类的外部数据。在确定数据仓库信息需求后,首先进行数据建模,然后确定从源数据到数据仓库的数据抽取、清理、转换和装载过程(ETL),最后设计数据仓库的前台展示。元数据是数据仓库的核心,它用于存储数据模型和定义数据结构、转换规划、仓库结构、控制信
息等。仓库管理包括对对数据的归档、备份、维护、恢复等工作,这些工作需要利用数据库管理系统(DBMS)的功能。数据仓库中的数据存在着不同的粒度等级,原予型的数据粒度最小,表示的细节最高,数据量最大;综合数据的粒度最大,表示的细节最粗,对数据分析而言最富有表现力。
其中的关键过程:ETL(Extract、Translate and Load)是指从源文件或源数据库中获取数据,并经过清洗、转换、集成后,将其加载到数据仓库的过程。
2.3 基于构件的海洋环境数据处理方法集成研究
2.3.1 背景【2】
海洋环境数据的处理方法具有如下方面的特征:
1.大多算法比较复杂,需要较强的计算机编程能力
2.有较强的专业特色,对地学背景要求较高
3.方法模型大都成型,改变很少
4.编程语言多样化,所用技术落后
5.程序编写不规范,文档严重缺乏
海洋环境数据处理方法的这些特点,一方面为海洋环境数据处理方法的集成和复用提出了迫切需求,提供了条件,如:方法的实现代价较大,如果能共享或复用,则可节省大量的人力物力;算法稳定、方法模型成型,则为复用提供了可能性。另一方面,由于编程语言多样化、编程技术落后、不规范,也为海洋方法的集成和复用,造成了困难和障碍。
基于构件的软件复用作为一种提高软件生产率和软件质量的有效途径,是近几年软件工程界研究的重点之一,被认为是继面向对象方法之后的一个新的技术热潮(梅宏,2003)。在基于构件的软件开发中,系统开发的重点从程序设计变成构件组装(C1ements PC,1996)。软件复用将造成软件产业的合理分工,专业化的构件生产将作为的产业而存在,软件系统的开发将由软件系统集成商通过购买商用成品构件集成组装而成。
本论文尝试用先进的软件复用思想和构件技术,把海洋环境数据处理中常用的方法、功能打造成一个个的、可复用的构件,并进行有效集成,从而使得未来的海洋信息系统开发如同工业化午产方式中的机械制造一样,可以用各种标准和非标准的“零件”来进行快速组装。
2.3.2 适用性【2】
1.构件的特点为海洋环境数据处理方法的开发和复用提供了可能
2.面向对象技术不能完全适合海洋环境数据处理方法的集成和复用
3.构件技术的天然特性决定了在软件开发中有如下优势:
1)提高开发速度。
2)降低开发成本。
3)增加应用软件的灵活性。
4)降低软件维护费用。
2.3.3基于构件的海洋环境数据处理方法集成【2】
基于构件思想和UML技术,遵循“并行开发自丰集成”,研发了“基于构件的海洋数据一体化读取中间件”(Marine Data Unified Reading Middleware,简称MDURM)。MDURM作为基于构件的海洋环境数据处理方法集成的实践,集成了多种以构件形式存在的海洋数据读取方法,提供了对这些构件进行组织、管理和集成的架构。
2.3.4 MDURM特色【2】
MDURM主要有以下特色:
1.多种海洋数据格式文件和多种常见关系数据库的一体化读取MURRM提供了一个对海洋数据的跨平台、跨系统、跨格式的一体化读取工具。这里的一体化读取,指的是不仅无损读取多种格式的海洋数据文件,还能方便地对常见关系数据库进行浏览和数据提取。
2.数据读取、分析和可视化功能的无缝集成在数据读取后,MDURIvI可以提供基础统计分析服务和插值分析服务,也可以进行树状浏览、列表浏览、散点图、等值线图等专题显示。
3.兼容空间数据
MDUI硼I除了可读取以字符形式存在的属性数据如风速、浪高、海温等,还可以读取以图形形式存在的空间数据,如典型的GIS数据类型Shp数据。
4.支持海量数据的快速提取
海洋环境数据特别是海洋环境遥感数据,由于其多分辨牢、多光谱、长周期等特性,海洋数据数据量特别大。MDRUM采用了一系列程序和数据库优化技术,支持对海量数据快速预览和提取。
5.全构件化开发,
MDURM从数据的外部存储、数据结构到多种查询、分析和可视化方法,都实现了完全构件化开发。用户可根据自身需要,自主定制和集成所需构件。
6.提供ActiveX控件支持二次开发
对开发者而言,可把该ActiveX控件即插即用地嵌入到自己熟悉的高级可视化开发语言如.Net、VB、VC、Delphi、PowerBuild中,从而可极大地加快海洋信息系统的开发。
7.提供良好的接口扩展
该中间件提供了方便的升级机制,可用于扩展其他数据类型的读取,增加其他的分析和可视化方法,为扩展成新一代MAGIS桌面平台系统作好了铺垫。
2.4 基于Web Services的海洋环境数据处理方法集成研究
2.4.1 Web service 技术
基于Web service的信息集成技术为海洋智能管理提供有效的决策辅助工具,实现决策的科学化、规范化,提高办事效率,同时为建设海岸带综合管理信息系统奠定基础。当今利用Internet技术开发应用系统是发展的潮流,网上信息的发布可将信息传遍千家万户,它可实现图形和数据的连接,并真正实现直观、简捷的动态信息查询【1】。
2.4.2 适用性【2】
概括来说,用基于Web Services技术来进行海洋数据处理方法集成,有如下优势:
1)提升互操作性。Web Services将服务提供程序与服务请求程序之间的交互作用设计为完全不依赖于平台并且不依赖于语言。
2)实现即时集成。当服务请求程序使用服务代理程序来查找服务提供程序时,发现就
动态发生。
3)通过封装来降低复杂性。服务请求程序和提供程序本身关注的是彼此相互作用所必需的接口。因此,服务请求程序不知道服务提供程序如何实现其服务,服务提供程序不知道服务请求程序如何使用其服务。Web服务将那些详细信息封装在请求程序利提供程序中。
4)Web Services技术允许将较旧的应用程序强制转型为Web服务。这意味着可以有意义的新方法使用已存在的应用程序或程序包。
2.4.3 基于Web Services的海洋环境数据处理方法集成【2】
2.5 基于本体的海洋知识集成初步研究
2.5.1 本体论
本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,从不同层次的形式化模式给出这些词汇(术语)和词汇间相互关系的明确定义,通过概念之间的关系来描述概念的语义【2】。
2.5.2 海洋知识集成的必要性【2】
1.海洋知识集成是海洋科研创新的需要
2.海洋知识集成是海洋知识共享的需要
3.知识集成体现了人类多元立体思维的成果。
2.5.3 可行性分析【2】
海洋领域存在着大量的语义异构现象。造成语义异构的因素丰要有:①海洋科学相对其他科学研究起步较晚,很多概念、公理、公式等还没得到业界的广泛认可和统一;②海洋科学具有明显的区域性特征,即使是同一区域,海洋、水文、化学要素及生物分布也是互相各异、多层次性的,适用的海洋规律也是不全一致;⑦不同的信息源可能使用多种术语(词汇)表示同一概念,同一概念也有可能在不同的信息源中表达不同的含义,而且各信息源也可能使用不同的结构来表示相同(或相似)的信息;④各信息源中的概念之间是存在着各种联系,但因为各信息源的分布自治性,这种隐含的联系不能体现出来。对于语义异构问题的解决,用本体的方法已逐渐成为共识,并在国内外已有了许多成功的实验和实践。这是因为【2】:
1.本体比其他方法更适合表示海洋知识
2.本体比其他方法更适合解决语义异构
3.其他行业领域已经有成功案例
4.海洋领域已经有人进行了探索和研究
2.5.4 基于本体的海洋知识集成
海洋知识本体可以被定义为一个四元组:0=(c,R,A,I)。0表示一个海洋知识本体;c表示0中概念集合:R表示0中概念之间关系集合:A表示公理集合,常在其中定义0中的相关约束:I是c的实例集合。海洋知识本体的丰要构成内容如表5.3所示。海洋概念集合指的是现实海洋世界中存在的任何实体或现象,也包括这些现象和实体内在的属性。前者包括大洋、海湾、海浪、海风、海流等,后者包括浪高、风速、海温、叶绿素浓度、海水盐度等等。海洋概念间的关系丰耍有空间关系、包含所属关系(父了关系)、组成关系(如包含、相交)、属性关系、实例关系、时间关系(前、后)和空间关系(上、下、左、右)等。公理是海洋领域已被证明并广泛接受的规律、定理、公式等。实例则指的是概念的一个具体例子。如太平洋、大西洋是大洋的具体实例【2】。
基于本体的海洋知识集成有三个丰要的阶段:建立共享词汇库(共享本体)、建立局部本体和定义映射。每个阶段都包括一些必须实现的任务【2】。
2.6基于集成思想的新一代MAGIS原型系统的研发【2】
2.6.1 概述
中国海洋大学2004年白丰研发的海洋大气地理信息系统平台软件(MAGIS)作为专门用于海洋大气领域的地理信息系统平台软件,无缝地集成了海洋大气领域的数据符理、时空分析和可视化二个功能模块,为海洋大气领域的用户提供了强而有力的工具支持。
MAGIS数据箭理予系统在建立一个基于ORACLE的时空数据库的同时实现了数据选取、清洁、转换、入库和提取等功能。MAGIS分析子系统提供线性回归、非线性回归、谱分析、丰成分分析、调和分析、聚类分析和预测分析等功能。MAGIS可视化子系统提供各种海洋研究常用的数据和知识的表现方法。
2.6.2 MAGIS丰要用于如下领域【2】:
(1)海洋大气科研与教育
(2)海洋管理
(3)海洋开发
在各类海洋开发活动中,如油气开采、渔业、航运、海洋旅游、海洋能利用和海水资源利用等,MAGIS都能发挥重要的平台支撑和决策支持作用。
2.6.3 新一代MAGIS的关键技术【2】
在新一代MAGIS的设计开发过程中,除了作为支撑的数据仓库技术、构件技术、Web Services、本体技术外,还采用了如下几个关键技术。
1) 多源海洋大气数据的空间分辨率转换技术
2) 混合编程技术
3) 三维空间显示模型和动态模型技术
4) 海量数据的快速显示技术
5) 多线程和簇技术
6) 客户端动态数据请求技术和缓存技术
2.7 异构数据转换规则动态定义、编译与执行技术【5】
2.7.1 数据转换流程
数据转换可分为形成规则表达式、规则校验、规则编译、规则执行等4 个流程,具体步骤如下:
(1)按Object Pascal 语法形式定义、编辑转换规则表达式。
(2)对形成的规则表达式进行语法及语义的动态校验。
(3)将通过校验的规则表达式动态编译形成可供数据转换主函数调用的转换规则动态链接库源文件。
(4)由数据转换主函数调用转换规则动态链接库源文件,实现数据转换。
2.7.2 数据转换设计
规则表达式定义、规则表达式的动态校验、转换规则的动态链接库源文件以及转换规则动态链接库文件的调用。
另外,袁立成【9】提出了一种在可升级的基础上开发的数据格式转换(Data Format Convert,DFC)的可扩展可升级的设计。
DFC设计的关键是让用户通过转换规则生成器创建转换规则。转换引擎在转换规则的基础上将源数据转换成目标数据。这种方式使得DFC是可升级可扩展的,比如,用户可以手工定义转换规则把源数据转换成目标数据。
2.8 基于GML技术的空间数据交换【11】
2.8.1 概述
GML是开放式地理信息系统联盟(oven GIS Consortium,简称OGC)为了解决不同来源.不同内容、不同数据模型以及不同格式的空间数据之间的共享与互操作,推出的一个基于OpenGIS“简单要素”(Simple Feature)数据模型和XML的空间数据交换格式,主要用于空间数据的编码,存储和传输。
2.8.2 空间数据交换模型
图6是基于GML的多源异构空问数据交换模型结构示意图.在各个数据节点利用GML封装器将异构的空间数据源转化为基于文本的GML格式空间数据。这里,可以根据交换业务的需求分别采取两种交换方式。①主动推模式。A数据节点将打包的GML空间
数据通过节点间的数据交换系统发送到B数据节点的前置交换机上,B节点经数据解析,获取适合本地数据格式的空间数据,完成数据交换.②被动拉模式.在A数据节点上,利用XSLT(extensible Style sheet Language Transformation)可扩展样式转换语言建立模板规则,将GML空间数据转换为SVG(Scalable Vector Graphics)空间矢量图形数据.通过节点Web服务器上的Web service对外发布数据,其他节点用户通过Web访问A节点获取空间数据,从而实现异构数据源的交换共享.
2.8.3 GML在空间数据交换中的优势
1)GML是文本标记语言.与XML编码一样,GML也是用文本的形式来进行地理信息的表示。文本有其简单性、易见性、可操作性,并且容易检查和转换。
2)GML很容易与非空间数据集成。
3)GML实现对地理特征的统一高效编码
4)GML对空间参考系统(SRS)进行编码。
5)数据转换的完整性好
6)GML将数据内容与其表现分离
3 空间数据整合
3.1 实现地理空间数据整合和更新方法的技术研究
——赵俊三, 徐涛,赵耀龙,傅晓东, 李勇。 昆明理工大学学报。2005
3.2多源GIS数据关联集成技术研究【7】
目前,应用GIS系统对多源异构数据的集成主要采用数据转换、数据直接读取、地理数据互操作三种模式,但这三种模式在一定程度上都存在缺陷。
1数据格式转换
数据格式转换是传统GIs实现地理数据共享的主要方法。这种方法通过专门的数据转换程序经过两到三步转换实现。①首先将GIsA系统的内部数据格式转换成本系统的数据交换格.式。②再把GIsA的数据交换格式转换成GIsB的数据交换格式。③最后将GIsB的数据交换格式转换成GIsB系统使用的内部数据格式。有些数据转换将第二步和第三步合并,即将GIsA的数据交换格式直接转换成GIsB的内部格式。通常这种数据转换不是由单个数据转换程序完成的,需要调用多个数据转换程序才能实现。公认的数据交换格式有EsRI的Eoo、AutoDesk公司的DxF、MapInfo公司的MIF、美国的空间数据转换标准(sDTs)等。由于转换软件趋于最低公用标准,所以转换中造成了源数据部分信息丢失,需要后期
大量的数据处理才能使用。
2数据直接读取
直接访问是指在一个GIs软件中实现对其它软件数据格式的直接访问,用户可以使用单个GIs软件访问多种数据格式。目前实现直接数据访问的GIs软件不多,最具代表性的是S如公司的FME,能直接读取100多种GIS格式的数据文件。另外超图的superMap和Intefgmph的Ge0Media也可以实现对大多数GIs/cAD软件数据格式的直接访问悼J。直接访问提供了一种更为经济实用的多源数据共享模式,但当宿主软件的数据格式发生变化,数据访问软件不得不重新研究该数据格式,提供升级版本。
3 地理数据互操作
地理数据互操作是指通过规范接口自由处理所有种类地理数据的能力和在GIs软件平台通过网络处理地理数据的能力。开放的地理数据互操作规范—0penGIS(0pen Geo.data Interoperability Specification)是由0GC(0pen GIS Consortium)提出的有关地理信息互操作的框架和相关标准规范。0cC标准将计算机软件领域的非空问数据处理标准成功地应用到空间数据上,为多源数据集成提供了崭新的思路和规范。但要完全依靠各个GIs软件支持地理数据互操作规范来实现多源数据的集成和共享还不现实,而且尚有大量未遵循这种规范的历史遗留数据。因此,目前地理数据互操作还不具备成为主流数据共享和集成方式的条件。
陶陶等【7】分析了现有多源GIs数据集成模式的原理与不足,提出了一种多源GIs数据关联集成技术,该技术通过空间数据直接读取引擎和属性数据导入引擎将地理数据集成到GIs系统中,并且通过空间和属性关联机制实现了多源GIS数据图形、属性和功能的
一体化集成。
3.3 研究进展【10】
1 国外空间数据整合进展
国外空间数据交换标准主要有美国地质测量局自行制定的数字线划图矢量数据格式标准DLG、美国国家标准《空间数据交换格式(FIPSl73:SDTS)》以及其他有关标准;美国
联邦地理数据委员会(FGDC)的空间数据转换标准——FGDC—STD-002、地理空间定位精
度标准等相关标准;国际标准化组织Open Geospatial Consortium制定了关于空间数据共享
的XML标准等;国际标准化组织ISO制定的ISO 19107空间模式,ISO 19108时间纲要,
ISO 19109地理信息应用模式规则,ISO 1911l坐标空间参考,ISO 19113一质量原则和ISO
19118空间编码等一系列标准。
在数据格式转换的方式上,主要研究集中于矢量数据格式间的转换方法和栅格数据与矢
量数据的转换。1990年Joseph M等人就集成中特征边界的提取、平滑及数据处理后的拓扑
重建提供了理论研究及具体方法。1995年N.M.Mattikalli等人讨论了一种栅格数据到矢量数据的转换方法,其做法是先将栅格影像图转成Lattice文件,该文件中以对应网格的中
心点的值来表示网格的值,然后再转成Grid格式,最后转换成矢量数据;2003年Villie Morocho等人提出了一个采用联邦架构的多源数据语义集成的原型系统,使用比率模型
(ratio model)来评估语义之间的相似度;2006年I Buda Arpinar等人对地球空间信息本体的发展和语义进行了分析,并提出专题本体、空间本体、时空本体相结合来研究数据集成的方法。
2 国内空间数据集成研究进展
在标准规范上,国家技术监督局1999年8月发布了“中华人民共和国国家标准地球空
间数据交换格式(CNsDTF)”。
在实现多源空间数据无缝集成的技术手段上,2000年钟耳顺、宋关福等人提出了SMIS
技术;2002年马照亭等提出了基于通用空间数据引擎(USDE)的空间数据共享与集成模式。2002年李军怀、艾海滨等分别提出了基于XML的异构数据集成的思想和实现框架。2003年宋杨、陈爱军等在分析了OpenGIS规范和GML 1.0规范之后,开展了基于
GML.XML
的多源异构空间数据互操作引擎研究。
3.4 海域使用现状数据的差异性
海域使用的各种业务部门由于各自的业务需要分别建立了各自的系统和相应的数据模
型,但由于没有统一的规划,导致各模型间数据的差异,以至于数据不能交流。其差异性主
要表现在:
l、海域使用现状数据的时间尺度、空间尺度不一致;
2、海域使用现状数据坐标基准不统一,主要包括:各地采用的高斯投影的分带方式不一致,子午线不同,参考椭球不同等;
3、海域使用现状数据比例尺不同,海域使用现状数据的精度不一致;
4、行业部门间不能交流。己有的系统多是在各单位因业务急需,而全局又没有统一规划设计的情况下建成的,各个系统处于相互孤立的状态,运行平台、数据结构、数据来源各不相同,无法实现数据互通、信息共享,在操作中重复输入量大同时信息利用率低;
5、数据标准不一致、不完善。由于各单位是根据各自的需要,从自身的角度来对数据进行采集,缺乏统一的数据规范和标准,数据结构不一致,造成大量数据冗余;
6、属性数据模型不同。由于海域的属性数据来源于业务,各部门不同的系统采用了不同的数据模型,造成了属性数据数据模型间的差异;
7、属性语义表达存在差异。不同的系统表达同一类要素采用的数据类型可能不一致,如表达用海类型,有的系统采用数字编码形式,而有的系统则采用字符形式表达;
8、属性内容存在差异。由于应用不同,宗海的属性项的内容不同。如有的宗海只有“用海人”、“用海类型”、“用海期限”等少量数据项,而有的宗海属性项数据则丰富的多,包括
“用海人”、“用海起始日期”、“用海终止日期”、“海域使用金征收标准”、“用海类型”“用
途”等属性数据项。
3.5 海域使用现状数据整合【10】
3.5.1基础地理数据整合
基础地理数据整合主要包括时间界定、数据标准、不同精度空间数据整合、坐标系统转换、数据格式转换、属性整合和质量评价这几个方面。
3.5.2 海域使用现状数据整合
海域使用现状数据的整合方案是首先将多源异构数据从时间尺度上进行划分,分为现状
数据和历史数据,然后将不同时间尺度的数据通过不同精度的空间数据整合、格式转换、坐标转换和属性整合处理后,导入GeoDatabase个人数据库进行存储,最后对整合后的数据实
现基于要素的海籍信息管理。
3.5.3 海域使用现状数据的空间数据整合
1)不同时间尺度
不同时间尺度的海域使用情况差别是非常大的(如图3.3)。海域使用数据整合要有准
确的时间尺度,高质量的数据如果没有时间尺度,就无法应用于决策分析。因此,海域使用
现状数据整合的首要步骤是把握好时间尺度。通过时间界定,实现了海域使用现状数据在时间尺度上的统一。
2)不同精度
空间位置精度不同表现在同一地物要素在不同来源的空间图形中其空间位置上存在偏
差。如图3_4所示,这是两个部门提供的同一栈桥的边线。为了通过这两个图形确定栈桥的
实际位置,本文提出了对边线l和边线2进行按中误差权重加权平均计算平移距离的
方法加
以解决。
同理,面要素的位置也可通过根据边界线按中误差权重加权平均计算平移距离的方法来加以确定。
3)不同空间基准
海域使用现状数据常用的坐标系有19年北京坐标系、1980年西安坐标系和WGS.84
坐标系。这三个坐标系的图形进行叠加分析时,同一个宗海在三种体系下显示的图形会存在差异。
坐标系由于采用的椭球基准不同或者投影方式不同而无法整合到一起,甚至在相同投影
方式下,坐标基准不同、子午线不同、分带方式不同等,也是造成坐标系之间存在很大
的偏差的原因。如果要把数据整合到一起,必须将不同坐标系的坐标通过坐标转换模
型转换
到同一椭球基准、同一投影方式和分带方式的坐标系中。。由于我国海域使用主要分布于东经120°~123°,东西跨度比较大,采用6°分带可以避免海域分布于两个分带,子午线选择123°。
4)不同数据格式
近几年海域信息管理软件在GIS软件的基础上,得到了很好的发展。以江苏省为例,连云港市的海域空间数据主要借助AutoCAD软件进行管理,个别县采用了海域管理信息系
统,数据以Shapefile格式存储。盐城市和南通市的海域信息主要采用Maplnfo软件和海域
信息管理系统进行管理,数据格式主要是TAB、Shapefile和MDB。可以采用数据格式转换或直接数据访问模式。
3.5.4 海域使用现状数据的属性数据整合
属性数据是对目标的空间特征以外的特性的详细描述。海域使用现状数据的属性数据是对海域或宗海的详细描述,如宗海的使用人、用海类型等。海域使用现状数据的属性数据整合是把多种海域使用的描述信息用同一种数据组织方式进行管理,用相同的格式和标准进行整理表达的过程。
【10】根据海域使用现状数据的特点,对属性数据整合采取了以下两种方式:
l、将海域使用信息整理为标准格式的文本文件
2、数据格式转换,通过程序中定义属性字段映射关系,将需要的属性项直接录入要素
表中,然后进行规范化处理。
4 异构数据库间数据的转换
4.1 主要方式【4】
数据源有多种多样, 大概可分为下面三种: 一种是纯文本文档; 第二种是非关系型数据库; 第三种则来源关系型数据库。目前许多数据库系统均支持SQL, 对于由SQL 数据库组成的异构数据库系统, JDBC 和ODBC 由于具有数据库性甚至与平台无关性, 因而对Internet 上异构数据库访问提供了统一的方式, 也为各异构成员之间的协作和多个成员之上的操作打下了基础。
4.1.1 ODBC 方法的实现
ODBC 是Open Database Connect 即开放数据库互连的简称, 它是由Microsoft 公司于1991 年提出的一个用于访问数据库的统一界面标准, 是应用程序和数据库系统之间的中间件。
目前Oracle、Sybase、Postgres、Mysql、Informix 、Dbase、Solid、Access 等数据库完全支持ODBC 接口, 用户更换平台时, 只要安装相应的ODBC 驱动器, 很多程序员对Windows 平台下的ODBC 比较熟, 其实在Linux/ Unix 下现在也有了自己的
ODBC, 这使我们的数据库编程就像在Window s 平台下一样简单, 但它缺点是客户端必须带有ODBC 驱动器。
4.1.2 JDBC方法的实现
JDBC(Java Data Base Connection, Java 数据库连接) API 是一个标准SQL( Structured Query Language, 结构化查询语言) 数据库访问接口, 它使数据库开发人员能够用标准Java API 编写数据库应用程序。
JDBC 包含两部分与数据库的API: 面向程序开发人员的JDBC API, 面向底层的JDBC Driver API 。Java 程序通过JDBC API 访问JDBC Driver Manager, JDBC Driver Manager 再通过JDBC Driver API 访问不同的JDBC 驱动程序, 从而实现对不同数据库的访问。
4.1.3 提高性能
下面是我们在项目开发中使用JDBC 访问ORACLE 数据库过程中的一些经验, 一般也适用与访问其它数据库。
1 连接池的技术;
2关闭自动提交功能, 提高系统性能
3 使用Prepared Statement 对象处理重复插入或更新的成批操作
4 显式关闭那些对象
另外,韩华【1】还对海洋数据的数据预处理问题做了比较相信的论述。
参考文献
【1】 韩华。海洋综合观测系统信息集成与智能管理的研究。东华大学。2008。
【2】 李海涛。海洋环境信息集成方法研究与新一代MAGIS平台软件开发。中国海洋大学。2007
【3】 夏登文。数字海洋基础数据及业务流程建模方法及相关技术研究。东北大学。2006。
【4】 薛卫萍。实现异构数据库间数据的转换。计算机与数字工程。2004(32),6:86-88。
【5】 兴春,严浩,丁鲲。异构数据转换关键技术的实现。计算机工程。2008(34),17:42-43,46。
【6】 陈继香。XML 在海洋数据服务领域的应用研究。海洋通报。2004(23),2:46-50。
【7】 陶陶,李秀梅,吴迪。多源GIS数据关联集成技术研究——以市政管线行业为例。计算机应用与软件。2008(25),2:160-162,177。
【8】 蒋文文。海洋环境信息数据格式分析与数据再加工的研究。中国海洋大学。2009。
【9】 袁立成,秦勃,洪锋。海洋网格——海洋环境信息存储与交换的数据网格。计
算机应用。2009(29):188-190,200。
【10】 高磊。海域使用现状数据整合关键技术研究。南京师范大学。2008。
【11】 张峰,崔晓健,王伟,李四海。基于GML的地理空间数据交换技术研究。地理空间信息。2009(7),1:78-81。
【12】 蒋永国,刘克,卢莲英,郭忠文。基于XML的海洋遥感卫星数据规范化研究。海洋通报。2009(28),4:9-16。
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务