2017年第26卷第5期 http:Nwww.c—S-a.org.ca 计算机系统应用 遥感影像样本大数据建库与应用方法① 程滔 (IN家基础地理信息中心,北京100830) 摘要:研究一种基于关系型数据库与分布式文件系统融合的遥感影像解译样本大数据建库方法.解析了数据 库建设过程,讨论了建库关键技术问题与解决方法;在建成样本数据库基础上,研究了样本数据应用方法,分析 了几种应用实例,探索了样本数据应用模式;以选取的研究区域内大规模样本数据为对象,验证了数据库建设中 数据处理过程及效率,同时,以地理国情普查分类体系中地表覆盖10个一级类为例,对研究区域各类别样本空 间分布与密度等特征进行了分析。结果表明:利用关系型数据库与分布式文件系统融合的方法对样本大数据进 行建库与管理,对样本数据的检索、分析及推广应用,具有很好的效能和适用性. 关键词:遥感影像样本;大数据;数据库;分布式文件系统;应用 Database Construction and Its Application of Sample Big Data Collected in Remote Sensing Image CHENGTao (Naitonal Geomatics Center of China,Beijing 1 00830,China) Abstract:A database Construction method which is based on the integration of relational database and distributed file system is researched for a large sample data base for interpretation of remote sensing images.It analyzes the database’S construction process,and discusses the key technical problems and solution method.Based on the sample database,it studies the application method of sample data,analyzes some kinds of using cases nad explores hte application mode of sample data.Individual region’S massive sample data are selected for verifying the method and its efifciency ̄At the same time,it takes 1 0 first—level classes which are defined in the land cover classification system for example,to analyze the spatial distribution and density characteristics of all kinds of sample data.The results show that the method of database construction and management which is based on the integration of relational database and distributed file system is very effective and applicative for sample data’S searching,analyzing and promoted application. Key words:remote sensing image sample;big data;database;distributed file system;application 第一次全国地理国情普查样本数据库建设是地理 促进应用服务,需要对这些数据进行科学存储和管理[ ,3] 国情普查成果数据库建设的任务之一,可为从事遥感 利用数据库对样本数据进行管理,是一种可靠的方法, 影像解译的研究人员与工程技术人员提供丰富的解译 数据存储的逻辑性强,能够提高数据检索效率.成熟 标志信息,提高地表覆盖分类、土地利用分类等精度, 的关系型数据库技术采用结构化的语言(Structured 从而提高研究成果质量[】】.第一次全国地理国情普查 Query Language,缩写SQL),用二维表结构分行、列对 在全国范围内采集的遥感影像解译样本点数量达到 数据进行存储,调用数据时遵循固定的请求格式,甲 300多万个。数据文件量达到1250多万个,并将在后 骨文(Oracle)在20世纪70年代率先推出这项技术,该 续地理国情监测中不断积累递增. 技术也是目前应用最为广泛的数据库技术C41. 为了提高样本数据检索、分析及推广应用效率, 然而,随着云计算、互联网等技术的发展,文档、 ①基金项目:国家自然科学基金(41301464);IN家基础地理信息中心科技创新发展基金课题(2017.KJ-G01) 收稿时间:2016—08—15;收到修改稿时间:2016—09—18【doi:lO.158888.cnki.csa.005723】 System Construction系统建设43 计算机系统应用 http://www.c-s-a.org.cn 2017年第26卷第5期 图片、图像、视频、文本、XML等非结构化、半结构 化数据增长迅速,关系型数据库虽支持二进制大对象 (BLOB),能将数据直接入库存储,但未提供对这类复 杂数据类型的快速存储、访问方法【5 ;所以这类数据的 存储,已不方便用关系型数据库二维逻辑表来表现, 需要增大数据库的开发工作量才能满足应用需求.因 此,大数据管理方法与计算处理能力在极大提升的同 时,也面临一些挑战I。, . 地理国情普查样本数据文件数量庞大,且包含 ACCESS、JPG、TIFF、TFW、XML等多种数据格式, 从数据模型角度划分,ACCESS属于结构化数据,JPG、 TIFF、TFw属于非结构化数据,XML属于半结构化数据. 针对地理国情普查样本数据特点,本文研究一种 基于关系型数据库与分布式文件系统融合的样本大数 据建库方法,将各类模型的数据分别存储在不同的物 理位置,并对结构化数据进行空间化处理,增强数据 的检索性能与可视化体验,以满足大数据建库与后续 应用的需求.首先分析建库过程与关键技术,解决大 数据、批量处理过程中的技术问题;然后在完成样本 数据库建设的基础上。研究探索样本数据的应用方法 与模式:最后通过选取大规模样本数据集,结合空间 分析,对研究方法进行验证. 1研究方法 1.1数据分析 地理国情普查样本数据的原始数据由地面照片、 遥感影像实例以及样本信息描述数据库三部分组成. 其中,地面照片采用JPG格式;遥感影像实例采用 TIFF格式;影像坐标信息采用TFw文档格式;影像投 影信息采用XML格式:样本信息描述数据库采用 ACCESS数据库,由记录地面照片属性信息的PHOTO 数据表(包括照片的标识符、照片文件名、拍摄时间、 拍摄点经度、拍摄点纬度等19项属性)、记录遥感影 像实例属性信息的SMPIMG数据表(包括遥感影像实 例标识符、遥感影像实例文件名、影像类型、影像分 辨率、影像拍摄时间等l4项属性)、以及反映地面照 片和遥感影像实例对应关系的PHOTO IMG关系表 (包括地面照片的标识符、遥感影像实例标识符等5项 属性1三个表格构成,表格数据类型包括Text、Date、 Double、Float、Short Integer[8】. 为了便于地理国情普查样本数据的展示、检索、分 析,在原始数据经过入库质量检查合格的基础上,需要 44系统建设System Construction 利用原始数据记录的空间位置信息(地面照片拍摄点经 度、拍摄点纬度,或者根据对应遥感影像实例四个角点 经纬度计算出的中心点坐标),生成样本点位矢量数据 【9],该衍生数据为点状图形数据,其属性信息包括地面 照片所有属性信息,并添加了要素唯一标识码属性. 这种结构化、非结构化、半结构化数据在入库前 均以文件形式存储,并组成了地理国情普查样本数据 的完整数据模型. 1.2数据库建设方法 地理国情普查样本大数据建库过程是数据库建设 与管理的核心,原始数据在经过数据整理、入库检查、 问题解决、重新整理等处理过程后,需要进行属性结 构调整、表格数据空间化等处理,经入库质量检查合 格后,进行数据入库操作. 在数据入库过程中,地理国情普查项目采用 Oracle数据库技术,在数据库设计时,分别按照表格 数据、矢量数据、文档数据这几种形式作为数据存储 结构.结构化数据直接存储在Oracle数据库表中:空 间化后的矢量数据存储在Oracle Spatial中,具体采用 SDO Geometry 字段进行物理存储,属性信息存储在相应的属性字段中:非结构化、半结构化的文档数据 存储在分布式文件系统中【m】. 这种基于关系型数据库与分布式文件系统融合的 样本大数据建库方法的处理流程如图1所示. 关 集 系 群 型 文 数 件 据 系 库 统 图1样本数据库建设流程图 1-3关键技术分析 根据本文数据库建设方法,在样本数据库建设的 2017年第26卷第5期 http:Nwww.c-s-a.org.cn 计算机系统应用 整个流程中,关键技术主要表现在以下两个方面: (1)大数据整理与存储 内的所有样本数据,保持固定的耦合存储结构(如表1 所示);各行政区划或测区样本数据集之间并行排列: 全国地理国情普查样本数据具有文件数量庞大、 数据总量大、各模型数据格式各异的特点,而数据库 建设对大数据整理的要求是存储结构规范、逻辑关系 严密、结构化整理.在这种形势下,为了利于大规模数 据的更新与维护,在数据整理与存储过程中,可按照 全国行政区划或测区(一般为县级或地市州级行政单 位),逐级整理清晰. 在分布式文件系统中,对于一个行政区划或测区 采用县级或地市州级、省级、国家级逐级往上集中存 储.这样的存储方式有利于样本数据的快速检索、修 改、移动、删除等操作. 在关系型数据库中,利用各样本数据的照片文件 名字段、遥感影像实例文件名字段,存储其行政区划 或测区级的相对路径,从而,在数据库管理系统调用 样本数据时,便可读取此记录寻址到样本数据在分布 式文件系统中的物理位置. 表1样本数据目录组织方式 (2)大数据入库检查方法与问题解决 第一次全国地理国情普查项目是国家重大专项项 依据检查结果记录,对影响入库、应用的问题进 行有效解决,主要包括:遥感影像实例数学基础错误 (包括坐标系统错误、中央经线错误等)、样本信息描述 数据库表内容为空、遥感影像实例四角点坐标错误、 影像投影信息文件XML记录的内容错误(为规定之外 的内容)、影像坐标信息文件TFw记录的内容错误、 地面照片无对应遥感影像实例、遥感影像实例无对应 地面照片、个别行政区划或测区内数据缺漏等问题. 经过入库检查与问题解决,形成最终的符合数据 库建设要求的样本数据. 目,成果数据库的建设必须符合工程项目的标准和要 求,因此,对数据库的质量要求较高.为保证数据库 质量,满足推广应用需求,样本数据在整理规范的基 础上,需进行入库检查,并对检查发现的问题进行有 效解决,合格后才能入库. 面对样本文件数量庞大的现实状况,本研究利用 一种从宏观到微观的综合质量检查方法【l1】,采用大数 据量批处理的模式,结合全国行政区划地图,全面实 现样本数据各项内容的入库质量检查.从宏观整体角 度,检查样本数据组织正确性与完整性、遥感影像实 例与地面照片的匹配性与冗余性、数据表定义与属性 项定义正确性等内容.从微观具体角度,检查各样本 点数据的完整性与有效性、数学基础与空间位置正确 性、文件命名及格式正确性、属性数据正确性等内容. 每一个样本点数据检查均保存一条检查结果记录. 2应用方法探索 地理国情普查样本大数据建库的目的是提供应用 服务,利用大数据计算与分析,可以挖掘大量有价值 的信息[ 1.本文对样本数据应用方法的研究探索,分 为直接应用与衍生应用两个层次.直接应用是从样本 数据库直接检索、获取样本基本信息,为遥感影像解 System Construction系统建设45 计算机系统应用 http:llwww.c-S-a.org.ca 2017年第26卷第5期 译提供解译标志信息;衍生应用是在基本信息的基础 上,利用空间分析方法,得出一些规律性的特征信息. 对样本数据库的检索,检索条件可以是多样性的, 可以根据地表覆盖类型(一级类、二级类、三级类)、空 间范围(经纬度范围、行政区划范围、大区划范围(如华 东、华南、华中、华北、西北、西南、东北)、主题功 (5)反映同一地表覆盖类型在相同区域、不同季节 形态特征以及影像特征的应用 地理国情普查使用的遥感影像数据的获取季节和 时间不尽相同,样本数据在采集过程中,地面照片的 拍摄季节和时间也不尽相同,从样本数据库中检索出 这些信息,便可获取同一地表覆盖类型(例如阔叶乔木 林1在相同区域、不同季节的形态特征以及影像特征. (6)与地形、地貌等特征相关的专题分析应用 我国地形、地貌特征丰富,利用地形、地貌矢量 能区范围等 、时间段(地面照片的拍摄时间、遥感影像 的拍摄时间)等,以及这些检索条件的多条件检索. (1)反映研究区域地表覆盖类型及地面实地地物 特征的应用 数据,与样本数据库中某一类地表覆盖类型(例如针叶 乔木林、针叶灌木林)进行空间叠置分析,可以获取该 地表覆盖类型在不同地形、地貌区域的表现特征.同 样地,通过不同地域样本记录的地表覆盖类型的种类 分析,也可在一定程度上反映不同地域地物多样性特 征. 在一些遥感影像解译工作中,会存在通过内业解 译无法准确判读地表覆盖类型的情况,在没有外业工 作环节的情况下,可以利用样本数据库,检索研究区 域空间范围内的样本数据,通过区域内分布的样本点 基本信息,辅助遥感影像解译工作. (21反映相似地理环境区域的地表覆盖类型特征 的应用 3结果与分析 以湖北省地理国情普查采集的样本数据为研究实 例,验证数据库建设中关键数据处理过程及效率,并 对部分应用成果进行分析讨论. 利用样本数据,可在邻近区域或相似地理环境区 域(这些研究区域外业工作难以到达或限制到达,或未 计划开展外业工作),通过同类地物光谱、纹理比对以 及地理相关分析等方法,开展遥感影像解译. 并且,可以利用检索出的样本点对应的遥感影像 实例的光谱、纹理、形状等特征,作为地表覆盖监督 分类的先验知识. (3)反映样本数据空间分布与密度特征的应用 全国行政区划单位分为省级、地级、县级、乡级 3.1研究区概况 根据《中华人民共和国行政区划简册2015》『l ,湖 北省面积约19万km2,范围内县级行政区划103个, 人口合计6l65万人. 湖北省位于中国中部偏南、长江中游,空间位置 介于北纬2900'5 至33。20 ,东经108。21 至116。07 ,地 形地势大致为东、西、北三面环山,中间低平,略呈向 等,地理国情普查样本数据一般按照县级或地市州级 行政单位进行整理与存储. 南敞开的不完整盆地,在全省总面积中,山地占56%, 丘陵占24%,平原湖区占20%.全省水资源、土地资 源、生物资源、矿产资源丰富,地表覆盖类型呈多样 性特征. 因此,利用数据库中的样本点位矢量数据,以及 全国行政区划范围矢量数据,通过空间叠置分析与统 计计算,可获取到各级行政区划范围内、各地表覆盖 类型样本数据的空间分布与密度特征.这一特征也可 以反映研究区域内的地物多样性特征,并在一定程度 上间接反映研究区域内的交通通达情况. 3.2数据处理主要过程 湖北省采集的样本点数量为1 1-3万个,在分布式 文件系统中,按照100个测区对数据进行整理与存储 (部分县级行政区划数据进行了合并). (4)反映同一地表覆盖类型在全国不同区域、同一 季节形态特征的应用 样本数据入库检查时,为了进一步提高检查效率, 将数据按照测区分为5组,并发进行检查;样本点位 矢量数据以及样本信息描述数据库的表格数据,经质 量检查后,同时录入至Oracle数据库.这两项处理过 程的效率如表2所示,计算机配置为64位Window 7 我国地域广阔,同一地表覆盖类型在不同的区域, 可能会表现出不同的特征,利用样本数据库,检索某 一类地表覆盖类型(例如阔叶乔木林),与全国典型区 域矢量数据进行空间叠置分析,便可获取同一地表覆 盖类型在全国不同区域、同一季节形态特征. 46系统建设System Construction 操作系统、8GB内存. 2017年第26卷第5期 http://www.C—S—a.org.cn 计算机系统应用 表2样本数据入库检查与入库的效率 样本点数量/万个 数据文件量/万个 检查所需时间/分钟 一唰蒹 级类,分别为耕地、园地、林地、草地、房屋建筑(区)、 5 :己 伯 伸 o ll_3 道路、构筑物、人工堆掘地、荒漠与裸露地表、水域, 并定义了87个三级类[I剞.基于湖北省地理国情普查采 集的样本数据,利用本文提出的应用方法,得出了一 些应用成果,这里对部分应用成果进行分析. 检查占用内存/MB 矢量与表格数据入库所需时间/分钟 从表2可以看出,样本数据入库检查与入库的效 率能够满足数据库建设流程中对大数据检查与入库的 进度要求. 3.3应用成果分析 地理国情普查内容体系中,地表覆盖定义了10个 一(1)样本数据空间分布与密度特征 研究区样本数据的空问分布如图2所示,经统计 分析可知:湖北省范围内的地表覆盖类型涵盖了l0个 级类,81个三级类. 图例 口县级行政区捌 级类样本点 oloo ̄地 一o20o园地 O30o林地 O4OO草地 ・O500房屋建筑(区) o60o道路 0700 ̄筑物 0=B∞人工堆掘地 O9OO荒渔与襁嚣地表 t000水域 一・图2样本数据空间分布特征 以10个一级类为例,各地表覆盖类型样本点数量 统计直方图如图3所示. 难点,也是反映生态环境及气候变化特征的主要类型, 湖北省地理国情普查采集的这些类型的样本数据比较 丰富,为遥感影像分类积累了宝贵的资源. 图例 整度(个k ) 口口圈0 0 0 3 0 6 o 9 1 2 1 5 口0 3 0 6 圜o 9 1 2 -1 5 1 8 l1 6 2 1 I 21—2 4 l 2 4—2 7 l 2 7—3 o I 3 0—3 3 0100 0200 0300 0400 0500 0000 0700 0800 0900 1000 一图4各县级行政区划样本点密度特征 利用样本数据的空间分布数据与各县级行政区划 级类CI:码 图3各地表覆盖类型样本点数量统计直方图 从图3可以看出,湖北省范围内,林地类型的样 本数据采集是最多的,占样本数据总量的22.20%,空 面积数据,可以统计得出各县级行政区划样本点密度 特征,如图4所示. 县级行政区划样本点密度区间值为[0.14~3.09], 密度特征在一定程度上也反映了各县级行政区划内地 间分布也较广,所有县级行政区划均有分布;其次是 耕地,占16.87%. 物多样性特征. r21地表覆盖类型在地面照片与同季相遥感影像 System Construction系统建设47 自然地表覆盖类型的三级类,是遥感影像分类的 计算机系统应用 http:llwww.C-S—a.org.cn 2017年第26卷第5期 上的形态及光谱特征 样本数据在采集过程中,地面照片按照外业工作 规划,有计划地拍摄,其拍摄季相与遥感影像实例的 拍摄季相一般不同.而经过长期的数据积累,拍摄季 提供有力的辅助信息. 图5为阔叶乔木林样本数据,地面照片拍摄时间 为2014年10月28日,遥感影像实例的拍摄时间为 2013年10月14日,两者季相一致,在正射纠正后的 8bit P16iade卫星遥感影像(R、G、B三波段)上的波谱 相会不断丰富,样本数据库中将能积累出大量的两者 季相相同的样本数据,利用这些数据,可以对比得出 地物光谱的区域、季相特征,为遥感影像的自动分类 特征曲线如图5(c). 波段 (a)地面照片 (b)遥感影像实例 图5阔叶乔木林样本数据 (c)波谱特征曲线 可以看出:研究区内的阔叶乔木在10月份呈现生 长茂盛的形态,连片生长的阔叶林在遥感影像上纹理 比较均匀、平滑,在红波段上表现出了强吸收特征. 北京邮电大学,2013. 4 Price J.精通Oracle Database 12c SQL&PL/SQL编程(第3 版).北京:清华大学出版社,20l4. 4结语 (1)大数据存储、管理、分析与信息挖掘是当下众 多领域研究的热点,能够产生巨大的经济价值和社会 5黄飞鹏.海量遥感影像管理系统的设计与实现『硕士学位论 文1.上海:华东师范大学,20l1. 6孟小峰,慈祥。大数据管理:概念、技术与挑战.计算机研究与 发展,2013,50(1):146—169. 影响力,而高质量的数据和有效的数据管理是大数据 产生服务价值的重要前提.本文研究的基于关系型数 据库与分布式文件系统融合的样本大数据建库方法, 7刘智慧,张泉灵.大数据技术研究综述.浙江大学学报(工学 版),20 1 4,48(6):957-972. 解决了不同模型数据的存储、管理与数据调用问题, 通过实例验证与分析,表明该方法能够保证入库数据 的有效性、可用性以及数据库的质量,有利于样本数 据的合理科学管理与推广应用. 8程滔,袁如金,高志宏,高盎,史晓明.遥感影像解译样本数据 一体化整理方法.地理信息世界,2014,21(5):96-100. 9国务院第一次全国地理国情普查领导小组办公室.地理国 情普查数据库建设技术方法.北京:测绘出版社,2015. (2)本文探索性研究的样本数据应用方法是样本 数据应用范围的一部分,样本数据在应用服务过程中, 数据时相与数据量还将不断丰富和积累,应用服务的 范围也会不断拓展和丰富,能够产生更大的服务价值. 1O周江,王伟平,孟丹,马灿,古晓艳,蒋杰.面向大数据分析的 分布式文件系统关键技术.计算机研究与发展,2014,51(2): 382-394. 11程滔.地理国情普查样本数据入库质量检查方法研究.测 绘通报,2015,10(10):103—106. 12李清泉,李德仁.大数据GIS.武汉大学学报(信息科学版), 2014,39(6):641-644,646. 参考文献 l国务院第一次全国地理国情普查领导小组办公室.地理国 情普查数据采集技术方法 E京:测绘出版社,2013. 2刘露.全球海量遥感影像数据的分布式管理技术研究[硕士 13中华人民共和国民政部.中华人民共和国行政区划简册 2015.jE京:中国地图出版社,2015. 学位论文].长沙:国防科学技术大学,2007. 3韩晶.大数据服务若干关键技术研究【博士学位论文】.北京: 14国务院第一次全国地理国情普查领导小组办公室.地理国 情普查内容与指标.北京:测绘出版社,20l3. 48系统建设System Construction