彭思岭1
(1.广东利通信息科技投资有限公司 智能交通研究院,广东 广州 510641)
摘 要:运用反距离加权插值法(IDW)和梯度反距离加权插值法(GIDW)对全国183个气象站的2001年、2002年平均气温进行了内插,并在此基础上进行了幂指数优化和邻近点选择优化。交叉验证结果表明,对于IDW方法,幂指数为3、邻近点选择采用三角网法的插值结果最优;对于GIDW方法,幂指数为2、邻近点选择采用固定数目法的插值结果最优。在幂指数和邻近点选择优化的基础上,比较了IDW方法与GIDW方法的插值结果,考虑经纬度和海拔高程的GIDW方法明显优于IDW方法。在此基础上,提出了基于K-means聚类的空间插值优化方法,实践证明聚类后再插值比直接插值效果更佳,聚类为插值前的数据预处理提供了一种新的思路。关键词:IDW;GIDW;幂指数;聚类
中图分类号:P208 文献标志码:B
文章编号:1672-4623(2017)07-0086-04
气象要素信息数据是多种地学模型和气候学模型的基础[1]。准确获取气候要素信息数据的方法之一是建立高密度的气象观测站点,但由于经济水平、技术手段和地形条件的限制,很多地方的气象数据获取较困难。为了获取站点外区域的气象数据,研究人员通常将统计学方法与GIS相结合,根据已有站点的观测值估算(气象信息空间插值)全局空间范围内各点位的气象数据。常用的空间插值方法有:反距离加权插值法(IDW)、梯度反距离加权插值法(GIDW)、样条函数插值法、克里金插值法、多项式插值法和趋势面法等[2-3]。本文对IDW和GIDW插值方法的参数进行了优化,得出最优的插值结果,并在此基础上提出了基于K-means聚类的空间插值方法。实验结果表明,该方法优于传统插值方法。
1 数据来源与处理方法
1.1 数据来源
本文所采用的气温数据来自中国气象科学数据共享服务网,中国行政区划数据来自从中国地球科学数据共享网申请的中国1∶400万全要素基础数据;以2001年、2002年全国183个气象站的年均气温数据作为插值分析数据源。183个气象站分布状况如图1所示:数据采用的地理坐标系为GCS_Beijing_1954,投影坐标系为Lambert_Conformal_Conic。1.2 插值方法1.2.1 IDW方法
IDW方法是以待插点与实际观测样本点之间的距
收稿日期:2015-09-01。
图1 中国气象站点分布图(审图号:GS(2008)1400)
离为权重的插值方法,离插值点越近的样本点被赋予的权重越大,其权重贡献与距离成反比。其计算公式为[2]: z(xe)=e/
i=1m
z(xi)
odin1c/m
di=1
ni
m
(1)
z(xi)为xi处的实式中,z(xe)为xe处待插点的估算值;
m为参与计算的实测际观测值;di为xi到xe的距离;样本个数;n为距离的幂,一般取值为2。1.2.2 GIDW方法
GIDW方法于1998年由Nalder等提出,在IDW方法的基础上,考虑了气象要素随海拔和经纬度的梯度变化。其计算公式为[4]:
第15卷第7期
彭思岭:气象要素空间插值方法优化研究
m
·87·
c/
i=1m
z(xe)=e/
i=1
h#C+^Ye-Yih#Cy+^Ue-Uiuh#Cz(xie)+^X-Xix
odin1m din(2)
式中,Xe、Ye、Ue分别为xe处待插点的经度、纬度和海拔高程值;Xi、Yi、Ui分别为xi处实测样本点的经度、纬度和海拔高程值;Cx、Cy、Cu分别为站点气象要素值与经度、纬度和海拔高程值的回归系数。1.3 检验方法
采用交叉验证法来验证插值效果[5]
,即假定各站点的气象要素值均未知,需通过周围站点的值来估算,再计算所有站点实际观测值与估算值的误差,以此来评估误差方法的优劣。一般情况下采用平均绝对误差估不同插值方法的标准[6]。MAE可评估估算值可能的误差范围,RMSIE可反映利用样点的估算灵敏度和极值效应[7],MAE和RMSIE的表达式分别为:m
MAE=/ABS^zo,i-ze,ihmi
(3)=1 RMSIE=
/m
^z
,i-ze,i
(4)
i=oh2m 1
式中,zo,i为第i个站点的实际观测值;ze,i为第i个站点的插值估算值;m为用于参与验证的站点数目。
2 插值结果与对比分析
2.1 幂指数优化
在IDW方法和GIDW方法中,权重的选择直接影响插值的精度,而幂指数的选取直接影响权重的大小,因此幂指数的选取十分关键。国外许多学者取幂指数为2的IDW法对气象数据进行插值[8-9],本文通过实例验证,幂指数为2并不是最精确的。目前国内外研究者通常采用交叉验证法来验证幂指数的选取对插值精度的影响,以RMSIE作为评估标准,其值越接近0,插值精度越高
[10]
。根据RMSIE最小的选择
标准,幂指数分别选取1~6,采用逐步迭代法对研究区2001 年、2002年气温的幂指数进行筛选,选出最优的幂指数。对于每一个待插值点,均选其周围最近的15 个站点数据进行插值。由表1可知,对于IDW方法,幂指数为3时的插值精度最高;对于GIDW方法,幂指数为2时的插值精度最高。2.2 邻近点选择优化
在IDW方法和GIDW方法中,邻近点的个数直接影响插值精度。邻近点的选择是空间数据信息处理技术的一个重要研究方向,相关的算法主要可以分为[3]:①固定数目点选择,即选择最近的n个点(n预先指定)。该算法简单且运算矩阵的维数固定,但对于样点
表1 不同幂指数下的插值精度比较
插值评估
幂指数
方法年份标准
1
2
3
4
5
6
2001MAE1.654 91.494 71.433 11.433 21.466 51.498 7IDW
RMSIE2.265 22.114 02.100 92.157 42.229 82.299 02002MAE1.638 61.475 21.408 21.396 31.424 81.458 4RMSIE2.244 92.096 82.081 12.133 62.202 62.269 12001
MAE1.061 51.029 21.030 41.044 01.060 21.074 0GIDW
RMSIE1.971 21.970 52.000 02.036 22.068 12.093 92002
MAE
1.053 71.017 41.012 71.025 01.040 81.052 8
RMSIE1.939 81.947 71.982 52.022 22.056 32.083 6
分布不均匀可能导致外推。②固定距离点选择,即选择以待预测点为圆心,预先指定的距离为半径的圆所包含的点。该算法遇到样点分布不均匀的情况时,选择的点会过多或过少,且也不能避免外推。③三角网点选择,即选择与离待预测点距离最近的样本点有邻接关系的所有样本点。该算法在处理外围点时会不可避免地出现离待预测点较远的样本点仍被作为插值计算点的情况,明显与实际不符。本文运用IDW方法和GIDW方法对3种邻近点选择方法进行了比较,幂指数选取3,其中固定数目点为15个,固定距离选择东西方向或南北方向最大距离的1/3。3种邻近点选择方法的精度见表2。
表2 不同邻近点选择方法插值精度比较
插值方法
年份评估标准固定数目固定距离三角网2001
MAE1.433 11.485 91.420 0IDW
RMSIE2.100 92.156 42.012 12002MAE1.408 21.467 11.378 1RMSIE2.081 12.140 12.079 62001
MAE1.030 41.030 71.059 0GIDW
RMSIE2.000 02.037 72.044 0 2002
MAE1.012 71.016 51.034 0 RMSIE
1.982 5
1.990 0
2.026 3
由表2可知,综合比较2 a的MAE和RMSIE,对于IDW方法,插值精度大小排序为三角网>固定数目>固定距离;对于GIDW方法,插值精度大小排序为固定数目>固定距离>三角网。当幂指数发生变化时,插值精度大小排序也会发生变化。2.3 IDW方法与GIDW方法结果比较
在幂指数优化和邻近点选择优化的基础上,运用IDW与GIDW两种方法进行插值。对于IDW法:幂指数取3,邻近点选择采取三角网法的插值结果最优;对于GIDW法:幂指数取2,邻近点选择采取固定数目法的插值结果最优,见表3。
(MAE)和插值误差平方和的均方根(RMSIE)作为评·88·
地理空间信息第15卷第7期
表3 IDW方法与GIDW方法插值精度比较插值方法
年份评估标准误差值2001
MAE1.420 0IDW
RMSIE2.012 12002MAE1.378 1RMSIE2.079 62001
MAE1.029 2GIDW
RMSIE1.970 52002
MAE1.017 4RMSIE
1.947 7
由表3可知,GIDW方法的MAE、RMSIE明显低于IDW方法,GIDW方法显示了较强的优越性。气温的地理分布及变化受经纬度、地形等因素综合影响,综合考虑经纬度和海拔高程的GIDW插值方法提高了插值精度。MAE和RMSIE可反映插值方法的总体精度,各站点的插值精度可用相对误差(RE,插值估算值与实际观测值之差的绝对值占实际观测值的绝对值的百分比)来评估。以2002年年均气温数据为例,站点相对误差分布见表4。通过比较RE也可得出GIDW方法优于IDW方法的结论,在RE较低的区间(<10%),GIDW方法的站点百分比高出IDW方法10个百分点;而在RE较高区间(>50%),GIDW方法的站点百分比低于IDW方法7个百分点。
表4 气象站点RE分布/%
插值方法RE范围
<1010~2020~3030~5050~100>100IDW56.818.13.86.08.27.1GIDW
66.9
8.8
7.1
5.4
2.7
6.1
3 基于K-means聚类的空间插值方法
根据聚类后结果簇内相似度高、簇间相似度低的原理,将183个气象站分簇,簇内区域用簇内的气象站点数据进行插值,簇外的气象站点数据不参与插值,理论上可获得更高的插值精度。
常用的空间聚类算法很多,本文采用K-means聚类算法,其处理流程为
[11]
:首先随机选择k个对象,
每个对象代表一个簇的初始均值或中心,对剩余的每个对象,根据其与各个簇均值的距离,将其指派到最相似的簇;然后计算每个簇的新均值,不断重复,直到准则函数收敛。
根据中国气温分布的基本特征,大致可划分为东北、华北、西北与南方4个区域,空间聚类后形成空间上的4个簇
[12]
。本文采用与参考文献[12]中相同的
分簇个数,将183个气象站点分成4簇,结果见图2。
聚类结果
华北西北东北南方
图2 气象站点分簇后结果图(审图号:GS(2008)1400)
簇内区域用簇内气象站点进行插值,簇外的点即使距离很近也不参与计算。聚类前与聚类后的精度见表52002年的数据为例);可以看出聚类后再插值比直接插值具有更高的精度。站点的RE分布见表 6。对于IDW方法,在RE较低的区间(<10%),聚类后再插值的站点百分比高出直接插值3个百分点;而在RE较高的区间(>50%),聚类后再插值的站点百分比低于直接插值2个百分点。对于GIDW方法,在RE较低的区间(<10%),聚类后再插值的站点百分比高出直接插值3个百分点;而在RE较高的区间(>50%),聚类后再插值的站点百分比低于直接插值0.6个百分点。
表5 聚类前后插值结果比较聚类前/后插值方法评估标准
误差值IDW
MAE1.378 1聚类前
RMSIE2.089 6GIDWMAE1.017 4RMSIE1.947 7IDW
MAE1.244 6聚类后
RMSIE1.895 2GIDW
MAE0.899 1RMSIE
1.658 8
表6 气象站点RE分布/%
插值方法RE范围
<1010~2020~3030~5050~100>100未聚类IDW56.818.13.86.08.27.1GIDW66.98.87.15.42.76.1聚类
IDW59.615.37.14.47.16.5GIDW
70.0
14.72.23.83.36.0
4 结 语
本文运用IDW方法和GIDW方法对年平均气温进行插值,并进行了幂指数和邻近点选择的优化;在此基础上比较了两种方法的插值效果,进一步提出了
(以第15卷第7期
彭思岭:气象要素空间插值方法优化研究·89·
基于K-means聚类的空间插值方法,得出以下结论:
1)许多学者采取幂指数为2的IDW法对气象数据进行插值,本文通过实验验证,幂指数为3时,IDW方法插值效果更好;幂指数为2时,GIDW方法插值效果更好。由此可见,插值方法不同时,最佳幂指数取值也不同。
2)对于本文提到的3种邻近点选择方法,实验结果表明,对于IDW方法,三角网法选择邻近点插值效果最佳;而对于GIDW方法,固定数目法选择邻近点插值效果最佳。
3)GIDW方法的MAE和RMSIE都明显小于IDW方法,可见考虑经纬度和高程的GIDW插值结果优于IDW方法。
4)对全国气象站聚类后再插值,IDW方法和GIDW方法的插值结果均有明显提高。该方法为插值之前气象站点数据的预处理提供了另一种思路。
参考文献
[1] 刘志红,McVicar T R,VanNie T G,等.基于ANUSPLIN的
时间序列气象要素空间插值[J].西北农林科技大学学报(自然科学版),2008,36(10):227-234
[2] 邬伦,刘瑜,张晶,等.地理信息系统:原理、方法和应用[M].
北京:科学出版社,2001:180-191
[3] 杜宇健,萧德云.Delaunay-固定距离滑动邻域Kriging算法[J].
工程图学学报,2005(2):64-68
[4] Nalder I A, Wein R W. Spatial Interpolation of Climatic
Normals: Test of a New Method in the Canadian Boreal Forest[J].Agricultural and Forest Meteorology,1998,92(4):211-225
[5] Holdaway M R. Spatial Modeling and Interpolation
of Monthly Temperature Using Kriging[J].Annals of Physics,1996,6(3):215-225
[6] 潘耀忠,龚道溢,邓磊,等.基于DEM的中国陆地多年平均
温度插值方法[J].地理学报,2004,59(3):366-374
[7] 林忠辉,莫兴国,李宏轩,等.中国陆地区域气象要素的空
间插值[J].地理学报,2002,57(1):47-56
[8] Patrick M B. Multivariate Interpolation to Incorporate Thematic
Surface Data Using Inverse Distance Weighting(IDW) [J]. Computers & Geosciences,1996,22(7):795-799
[9] Goovaerts P. Geostatistical Approaches for Incorporating
Elevation into the Spatial Interpolation of Rainfall[J]. Journal of Hydrology,2000,228(1/2):113-129
[10] Efron B, Gong G.A Leisurely Look at the Bootstrap, the
Jackknife, and Cross-validation[J].The American Statistician, 1983,37(1):36-48
[11] Muhammad A, Loftis J C, Hubbard KG. Application of
Geostatistics to Evaluate Partial Weather Station Networks[J]. Agricultural and Forest Meteorology,1997,84(3):255-271
[12] 刘启亮,邓敏,王佳璆,等.时空一体化框架下时空异常探
测[J].遥感学报,2011,15(3):457-474作者简介:彭思岭,硕士研究生,主要从事GIS的开发研究工作。
(上接第78页)
参考文献
[1] 张欢,成金华,冯银,等.特大型城市生态文明建设评价指标
体系及应用:以武汉市为例[J].生态学报,2015,35(2):547-556[2] 曹越,王宏宇.城市环境中遥感技术的应用研究[J].环境科
学与管理,2015,40(3):5-8
[3] Rouse J W, Haas R H, Schell J A, et al. Monitoring Vegetation
Systems in the Great Plains with ERTS[C]. Third ERTS Symposium,1973:309-317
[4] ZHA Y, GAO J, NI S. Use of Normalized Difference
Built-up Index in Automatically Mapping Urban Areas from TM Imagery[J]. International Journal of Remote Sensing,2003,24(3):583-594
[5] McFeeters S K. The Use of Normalized Difference Water
Index (NDWI) in the Delineation of Open Water Features[J].
International Journal of Remote Sensing,1996,17(7):1 425-1 432[6] 覃志豪,ZHANG M H, Kamieli A,等.用陆地卫星TM6数据
演算地表温度的单窗算法[J].地理学报,2001,56(4):456-466[7] 孙志伟,唐伯惠,吴骅,等.通用劈窗算法的NOAA-18(N)
AVHRR/3数据地表温度遥感反演与验证[J].地球信息科学学报,2013,15(3):431-439
[8] 宋挺,段峥,刘军志,等.Landsat 8数据地表温度反演算法对
比[J].遥感学报,2015(3):415-464
[9] 徐涵秋.一种基于指数的新型遥感建筑用地指数及其生态环
境意义[J].遥感技术与应用,2007,22(3):301-308
[10] 武鹏飞,王茂军,张学霞.基于归一化建筑指数的北京市城市
热岛效应分布特征[J].生态环境学报,2009,18(4):1 325-1 331[11]梁保平,李艺,陈可宙.桂林市NDVI、地表温度的地物特征
及相关性研究[J].遥感技术与应用,2012,27(3):429-435第一作者简介:刘志强,硕士研究生,研究方向为遥感技术与应用。
因篇幅问题不能全部显示,请点此查看更多更全内容