关菁菁 尚蕊 蒋安华
(中国人民大学统计学院 100872)
摘要:本文基于美国交通部的公开数据建立了航空运输延误分析预测的时间序列模型。我们针对飞行延误情况进行研究。在建模之前给出了所有要用到的定义概念,为建模提供了测度基础。随后,本文利用所得数据充分描述了航空运输业的概况,包括航线分布、航程分布、延误时长、系统预定飞行设定等。在对数据集充分了解的情况下,我们针对月飞行延误率建立了时间序列模型,通过对这个时间序列模型的检验与评价,我们确信模型取得很好的效果。在文章的最后,我们就本次建模进行了总结,并基于模型的分析预测情况阐述了对于航空运输延误问题的一些启示。
一、背景
(一)研究背景
空中交通管理影响到飞行的安全和效率,已经成为当代一个重要问题。航空活动在二十世纪30年代之前,由于飞机只能在白天天气允许的情况下飞行最多几千米,当时只需由管制员用红旗和绿旗来控制飞机起降,人们关心飞行的安全多于飞机是否按时到达。1934至1945年间,机身和机场都装备了无线电通信和导航设备。二次世界大战给航空技术带来了飞跃性进步,雷达的应用和仪表着陆系统(ILS)。二十世纪80年代后,计算机、空管地面设施和卫星系统被广泛应用到空中交通管理。这些都为空中及地上飞行资源的优化配置提供了便捷,也正是由于航空技术的迅速发展,航空运输量日益增大,除了航空运输安全问题外,航空运输延误也成为了今日的重要课题。
我们研究的航班延误问题实际上是空中交通管理成效的一个反映。乘客希望得到最便捷和最安全的航程。航空公司希望每一飞行架次都可以安全、高效和成本最优。在空中交通管理中,地面等待策略也被广泛采用。因为从成本和飞行安全等方面来考虑,地面等待总比空中等待更安全、经济一些,所以地面等待策略实质上是将昂贵的空中等待转化为地面等待,以达缩减费用的目的。但是,这并不意味着起飞前的延误比降落的延误好。事实上,我们总是希望每一飞行架次均可按时完成飞行任务,所有的资源都得到优化配置。因此,为了了解目前民用航空的延误情况,我们将基于得到的数据建立一个关于航班延误时间序列模型。众所周知,统计其实是随机性和规律性的统一。我们希望可以在这些飞行数据中找到一些规律,并将之用于预测。由于统计具有随机性,所以我们得到的预测并不总是准确的。但一般说来,大量的随机事件则会呈现一定的统计规律性。 (二)数据来源
本文使用的数据来源于美国交通运输部研究与技术创新管理部门(Research
and Innovative Technology Administration (RITA) • U.S. Department of Transportation (US DOT), 1200 New Jersey Avenue, SE • Washington, DC 20590 • 800-853-1351)。美国交通运输
统计局的宗旨是发布完善且高质量的交通运输信息,提高公共和私人决策的效率,其利用网站发布了很多交通运输信息和相关分析,对我们有很大的启发和借鉴意义。我们选择了2003年06月至2009年07月美国所有飞行架次的飞行情况作为数据集。这个数据集聚焦于每架次是否按时飞行。
二、问题定义
我们关注的经济事件是一架次飞机的飞行情况。此经济事件实际包含三个阶段:起飞,在空和降落。实现一个完整经济事件的飞行称为一个飞行架次。因在这三个阶段都可能出现延误,故我们把飞行架次延误时长定义为在起飞、在空和降落三个阶段的总延误时长。因一次实现的飞行架次延误时长可正可负,正值代表该架次延误,负值则代表按时到达。根据上述定义和既得数据,我们可以计算出所有架次的延误时长以及判断其是否被延误。一般说来,只要在起飞、在空和降落任一阶段发生延误,该飞行架次都会被延误。飞行延误率被定义为一段时间内,飞行架次延误时长为正值的飞行架次数所占当期所有飞行架次总数的比例。
三、数据描述
(一)变量概览
该数据集所含主要指标分为以下大类,共计55个变量:时间;所属航线、出发及到达地点;起降表现;是否取消或绕道飞行;航班概况;延误原因。根据我们的研究目的,初步筛选之后留下了18个变量,如下表所示:
变量名 Year Month DayofMonth DayOfWeek 变量含义 年 月 日 星期几 UniqueCarrier 所属航空公司 Origin Dest 始发地 目的地 CRSDepTime 系统预定起飞时刻 DepDelay CRSArrTime ArrDelay Cancelled 实际起飞时刻与系统预定起飞时刻差值 系统着陆时刻 实际着陆时刻与系统预定着陆时刻差值 该架次被取消与否(1=取消) CancellationCode 取消原因 Diverted 该架次是否改道(1=改道) CRSElapsedTime 系统预定飞行时长(以分钟计) ActualElapsedTime 实际飞行时长(以分钟计) AirTime Distance 飞机在空时长(以分钟计) 始末机场距离 (表一)变量名称及意义说明
(二)主要变量及其关系分析
在数据集中,每个月起降的飞行架次最高可达638,883架次,最少月份也有481,506架次。鉴于每个月的起降情况类似,我们选取离目前最近的2009年07月的数据来进行主要变量关系分析。
由图一得,Atlanta,亚特兰大机场是全美起飞航班最多的机场,其起飞架次占全美起飞架次总量的6.60%,计37,705架次。芝加哥奥黑尔机场起飞的航班数量位居第二,占全美起飞架次总量的4.75%,累计27,161架次。图二为按照频率排序的始发地与目的地的往来对照图,相关地点往来航运量(按架次计)可以从该图查得。
(图一)各始发地起飞架次占总起飞架次比例图截选
(图二)起始地点往来飞行架次图截选
(图三)始末机场距离分布表
如图三所示,始末机场距离分布其实是一个右偏分布。有136,158个飞行架次的始末机场距离都在300千米附近,105,725个飞行架次的始末机场距离在500千米附近。介于500千米和2,500千米的飞行架次也占有相当大的比例。可见,飞行距离较短的飞行架次占了很重的比例。
(图四)系统预定飞行耗时与实际飞行耗时对比
由图四看出,系统预定飞行耗时与实际飞行耗时各个统计量都比较接近。只是系统预定飞行时长的众数为70分钟,而实际飞行时长的众数为80分钟,相对较长。图上红色的点以实际飞行时长为横坐标,系统预定飞行时长为纵坐标,黑色的线为过原点,斜率为1的射线,可以看到该射线的右下方的点居多,说明对于同一飞行架次来说,实际飞行时长一般会比系统预定飞行时长更长。
(图五)起飞延误与降落延误基本统计量图
如图五所示,起飞延误时长与降落延误时长的均值分别为9.99和7.35分钟,标准差分别为34.67和37.43,极差分别是2,497和2,524分钟,可见起飞延误时长相较于降落延误时长波动小,但是其均值比降落延误时长大。初步判断图上绿色的点有较严重的堆积情况,我们做一条起飞延误时长关于降落延误时长的回归线如图中颜色较淡的、斜率较大的细线所示,堆积情况十分严重。如果利用这两个变量做回归的话,偏差一定十分严重。将始末机场距离加入考虑,得到图六。我们可以看到大部分起飞延误的架次一般降落也会延误,大部分起降延误集中在始末机场距离介于0至3,000千米的架次。
(图六)起飞延误、降落延误与飞行距离关系图
如图七所示,294,994个飞行架次按时起飞。260,760架次的起飞延误时间介于50至100分钟之间。起飞延误时长介于100至150分钟之间的飞行架次为12,831,起飞延误时长超过100分钟的飞行架次为3,046。因此,起飞延误飞行架次与按时起飞飞行架次比例相当。
(图七)起飞延误时长分布图
(图八)降落延误时长分布图
由图八得,按时着陆的飞行架次为315,256,降落延误时长介于50至100分钟的飞行架次为239,256,降落延误时长介于100至150分钟的飞行架次为13,8,降落延误时长大于150分钟飞行架次为3,223。
(图九)起飞延误、飞行延误及降落延误关系图
不难从图九看出,在三个坐标轴取值较小的部分形成了一个三角区域,这说明一般飞行架次在起飞、在空及降落三个阶段的延误一般耗时都不会太长,但是有很多发生这种飞行延误的架次。将那些红色的点投影到起飞与降落延误的平面上,我们可以看到有部分起飞、降落延误时长相对较长的航班。
四、模型建立
为了对航空运输延误情况进行最有效的刻画和预测,我们把飞行延误率作为研究的主要对象。经过多次试验,我们认为使用月度为最小的时间单位来进行研
究会比较合适。因此,我们按月建立关于延误率的时间序列模型。用原始数据经过汇总后,得到2003年06月至2009年07月每月延误飞行架次占该月总飞行架次的比例数据,即月飞行延误率(以下用delayrate命名)。由图十得,飞行延误率有一定的季节性波动,但趋势并不明显。
DELAYRATE.60.55.50.45.40.35.302003200420052006200720082009 (图十)2003年06月至2009年07月飞行延误率时间序列图
(一)初步建立时间序列模型
(图十一)2003年06月至2009年07月飞行延误率自相关分析图
图十一为对飞行延误序列做自相关分析的结果,从图十一中可以看出,样本自相关系数(Autocorrelation)不呈现衰减趋势,而呈现出一定的周期起伏趋势。结合所研究数据的特性,我们认为飞行延误率序列应为季节序列。对飞行延误率序列进行周期为12的季节差分后得到新的序列,即除季节序列(命名为sdelayrate)。
(图十二)除季节序列的自相关分析
图十二为对除季节序列的自相关分析。从图十二中可以看出,样本自相关系数有衰减趋势,且随时间增大,表现为拖尾。除了K=12时偏相关系数(Partial Correlation)数值较大之外,在K>4之后偏相关系数都落入置信区间内。考虑到二阶季节差分会损失大量样本数据,且效果不明显,不再差分。同时,鉴于偏相关系数在K>4之后都落入置信区间内,而自相关系数具有拖尾的特性,最终采用AR(4)模型,即4阶自回归模型。因此,我们认为对于2003年06月至2009年07月美国航空运输飞行延误率经过除季节差分后的时间序列用4阶自回归模型拟合较好。
经过计算,sdelayrate均值为-0.00314,均值标准误为0.024,因此可认为均值近似为0而不进行中心化直接计算。另外,考虑到sdelayrate滞后期为12时的样本偏相关系数较大,为消除这个影响,我们将SAR(12)加入模型中,所以,用于刻画2003年06月至2009年07月美国航空运输飞行延误率时间序列的最终模型为ARIMA(1,0,0)(1,1,0)12。将此模型用于拟合,得到结果如表二所示。各滞后多项式的倒数根在单位圆内,过程平稳。
模型的展开形式为:
10.3932B(10.5777B0.1063B1220.0578B30.3084B4)(1B)delayrateut AR(1) AR(2) AR(3) AR(4) SAR(12) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Inverted AR Roots Coefficient 0.577727 -0.106319 0.057758 0.308414 -0.393219 0.506695 0.458568 0.04117 0.069494 84.11738 1.990316 .92 .65-.65i .12+.74i -.65+.65i .-.24i .24+.i -.24-.i -.65+.65i .+.24i .24-.i -.24+.i -.+.24i .65+.65i .12-.74i -.59 -.-.24i Std. Error 0.151039 0.177877 0.1792 0.151232 0.1511 t-Statistic 3.825018 -0.597711 0.322311 2.039346 -2.492 Prob. 0.0004 0.5533 0.74 0.0479 0.0148 -0.011929 0.055951 -3.439886 -3.241121 -3.3627 12
Mean dependent var S.D. dependent var Akaike info criterion Schwarz criterion Hannan-Quinn criter. (表二)ARIMA(1,0,0)(1,1,0)12模型拟合结果
(二)模型检验与评价
对于模型的检验,首先要检验其基本假定是否满足,这一般通过检验残差来进行。当K取6时,从图十三看出,2检验P值为0.344,不能拒绝残差序列相互的原假设。因此,所建模型满足基本假定。
(图十三)ARIMA(1,0,0)(1,1,0)12模型残差性检验
对于模型的评价,我们选择从预测的角度着手。不能预测的模型,一般说来对我们并无大助益。我们利用动态法,将2003年06月至2008年12月的飞行延误率(以下命名为tdelay)用于建立模型,并利用这个模型预测2009年的飞行延误率。未进行几阶差分前,tdelay的自相关系数同样无衰减趋势,并展现出一定的季节波动性。如图十四所示:
(图十四)2003年06月至2008年12月飞行延误率自相关分析图
对tdelay进行周期为12的季节差分后得到新的除季节飞行延误率时间序列(命名为stdelay)。其样本自相关系数有衰减趋势。自相关系数在K>1之后都在置信区间内,偏相关系数除了K=12时数值较大之外,在K>1之后都落入置信区间内,如图十五所示。
(图十五)2003年06月至2008年12月除季节飞行延误率自相关分析图
这时,我们可考虑ARIMA(1,0,1)(1,1,0)12和ARIMA(1,0,0)(1,1,0)12这两个模型。
AR(1) SAR(12) MA(1) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Inverted AR Roots Inverted MA Roots Coefficient 0.6318 -0.468526 -0.055587 Std. Error 0.201527 0.142988 0.275331 t-Statistic 3.246796 -3.276674 -0.2010 Prob. 0.0024 0.0022 0.8411 0.001178 0.049711 -3.5588 -3.434744 -3.513369 .66-.66i -.24-.91i -.91+.24i .66+.66i .24+.91i -.66-.66i 0.400960 Mean dependent var 0.370240 S.D. dependent var 0.039449 Akaike info criterion 0.060693 Schwarz criterion 77.73614 Hannan-Quinn criter. 1.903953 .91-.24i .65 -.24+.91i -.91-.24i .06 .91+.24i .24-.91i -.66-.66i (表三)ARIMA(1,0,1)(1,1,0)12结果
AR(1) SAR(12) R-squared Adjusted R-squared S.E. of regression Sum squared resid Log likelihood Durbin-Watson stat Inverted AR Roots Coefficient 0.621056 -0.4661 Std. Error 0.124528 0.140945 t-Statistic 4.987299 -3.310092 Prob. 0.0000 0.0020 0.001178 0.049711 -3.605639 -3.5223 -3.575309 .66+.66i -.24+.91i -.91-.24i .66-.66i .24-.91i -.66-.66i 12 0.400455 Mean dependent var 0.3866 S.D. dependent var 0.0369 Akaike info criterion 0.060744 Schwarz criterion 77.71842 Hannan-Quinn criter. 1.949016 .91+.24i .62 -.24-.91i -.91+.24i .91-.24i .24+.91i -.66-.66i (表四)ARIMA(1,0,0)(1,1,0)结果
由于ma(1)系数不显著,且ARIMA(1,0,0)(1,1,0)12的AIC和SC值较小,所以最
终模型确定为ARIMA(1,0,0)(1,1,0)12。
模型展开式:10.4665B1210.6211B(1B12)tdelayut.
再次对模型进行检验,残差检验结果如下图所示。考虑到观测值数目为42,
K取4,2检验P值为0.657,不能拒绝残差序列相互的原假设。
(图十六)ARIMA(1,0,0)(1,1,0)模型残差性检验
12将这个模型用于2009年度预测序列的预测,图十六预测值和实际观测值的对比图,表五则为数值列示。可见,预测的效果还是相当好的。
.65.60.55.50.45.40.35.3009M0109M0209M0309M0409M05± 2 S.E.09M0609M07TDELAYF (图十七)预测值和实际观测值的对比图
实际值 预测值 2009-01 0.405293 0.478135 2009-02 0.346575 0.5200 2009-03 0.3823 0.484258 2009-04 0.391906 0.445180 2009-05 0.385568 0.433296 2009-06 0.433192 0.515132 2009-07 0.421708 0.470296 (表五)预测值和实际观测值对比表
五、总结与启示
本文着重于对航空运输延误问题进行建立模型。从相关背景研究、数据收集、确定问题,我们初步确定了相关重要概念,如飞行架次、飞行延误时长、飞行延误率。这些概念的明确提出与定义给统计建模提供了测度。问题确立和概念定义是建模的基础。
随后,我们开始对所得数据进行初步分析。这些分析基于SAS、R等正版软件平台,由各个统计量以及统计图表,我们对数据集及其中一些重要变量有了全局的了解。这些描述性的统计分析为我们选择建模方法提供最初的灵感。 基于对数据的充分认识,我们决定以飞行延误率作为对象建立时间序列分析预测模型。具体的分析过程如上所述,这里不再一一赘述。我们对2003年06年至2009年07月的所有月延误率建立了一个时间序列分析模型,同时也用2003年06月至2008年12月的数据建立了一个时间序列分析预测模型,区别在于我们利用了后一个模型对2009年的数据进行了预测,并和真值进行了对比,所得效果很好。
这里给我们最大的启示是,尽管我们预测得很准确,但是我们都不希望飞行延误率有0.40至0.60这么高。这意味着,在美国,如果有足够多的飞行架次起降的话,每10架次飞行就会有4到6架次的延误,这给经济以及其它方面带来的损失不可估量。我们也期望,可以对中国航空运输业的延误问题进行分析,这样可以为航空业使用者、营运商及监管者提供更多有利于决策的信息。
参考文献
[1]易丹辉,《数据分析与EViews应用》,中国人民大学出版社,2008 [2]董大钧,《SAS统计分析应用》,电子工业出版社,2008 [3]张军,《现代空中交通管理》,北京航空航天大学出版社,2005 [4]施和平,《空中交通管理新论》,厦门大学出版社,2001 [5]安鸿志,《时间序列分析》,华东师范大学出版社,1992
因篇幅问题不能全部显示,请点此查看更多更全内容
Copyright © 2019- yrrf.cn 版权所有 赣ICP备2024042794号-2
违法及侵权请联系:TEL:199 1889 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务