含时间特征的船舶轨迹间距离度量方法及应用
2020-04-18
来源:意榕旅游网
含时间特征的船舶轨迹间距离度量方法及应用 李宇扬 (上海海事大学 上海201306) 作者简介:李宇扬(1991一),男,汉族,安徽芜湖人,上海海事大学2015级硕士研究生,研究方向:航运市场分析与风险管理。 摘要:本文以船舶航行轨迹数据为研究对象,在对船舶航行轨迹曲线进行有效修复的基础上,提出含有时间特征的船舶轨迹间距离度量 方法。通过与经典的Hausdorf距离对比,发现该方法在船舶轨迹聚类中更为有效。 关键词:船舶航行轨迹;时间特征;轨迹聚类 中图分类号:TP391.41 文献标识码:A 文章编号:1672-5832(2017)06-0281—02 1船舶航行轨迹聚类概述 平方欧氏距离 ,具体形式如下 船舶智能识别系统是一种海上辅助航行通信系统,该系统不 d2( , )= ( )一 (£)1 2dt (3) 间断的向基站发送船舶航行轨迹数据,包括船舶航行位置、时间、 航向及航速等。船舶航行轨迹数据容量大、混合性高、产生时间 经度端度 非等间隔且数据密度不均匀 。船舶航行轨迹聚类指的是通过聚 _ 类分析方法,将某个区域内船舶轨迹归纳成不同的类别,以表示 蠢 _ 不同的航行模式,是船舶避碰、事故预警的重要环节_2]。 婆 轨迹聚类的关键在于如何定义轨迹间距离。在传统的船舶航 馨 行轨迹聚类研究中,多采用Hausdorff距离,直接利用离散的原始 蚤 数据计算轨迹间距离矩阵。本文在轨迹修复的基础上,提出含有 霉 时间特征的轨迹间距离度量方法,该方法能更为有效的对复杂区 徽幡 簿谁豫豁 箍嚣 辚 域船舶航行轨迹进行聚类,聚类结果稳健,能有效抵抗异常数据 的影响。 ・ 缚裳,甘 2传统空间BE离矩阵 图1船舶坐标轨迹图 在船舶轨迹聚类的问题中,每条轨迹的样本点数量均不同, 假设轨迹1和轨迹2是13条往返于A、B港口其中的的2条轨 不同轨迹之间的样本点并非一一对应,所以,不能用一般的距离 迹数据集,传统的聚类方法首先要计算2条轨迹之间的距离 公式定义两条轨迹之前的距离。通过阅读参考文献,发现用于定 :(A,曰),然后,将 :( ,曰)作为距离矩阵中的一个元素,以 义两条轨迹间距离最常用且有效地方法是Hausdo 距离 ]。对于 此类推,11条轨迹形成一个主对角线全为零的n阶距离矩阵,在此 给定欧式空间中的两个点集A:{a。,。 ,…,Ⅱ }和B={b ,b:,…, 基础上对轨迹进行聚类。好的聚类结果对数据的预处理、距离度 b } 量方法的选择以及聚类算法的选择要求非常高。如何在不增加信 第一步:计算A中第一个点与B中每个点的距离,取最小值; 息量和计算量的前提下,提高聚类精确度成为本章研究的重点。 计算A中第二个点与曰中每个点的距离,取最小值,以此类推,得 借鉴公式(3)函数性数据的平方欧式距离,对新的轨迹距离 m个值,将m个值中最大的值,记为从点集A到 的距离,记为 定义如下: h(A,B); 假设经过标准化的轨迹1和轨迹2的时间节点分别为0= ≤ 第二步:同理求出h(B,A); 1≤...≤M =1和0=‰≤“1≤…≤Ⅱ =1,节点对应的经、 第三步:取h(A,B)和h(B,A)中较大者作为点集A与口之间 纬度数据集分别为{( ,y0I)….,( ,,, )}和{( ,Y ),…,( , 的距离; Y )},通过三次样条基函数分别将离散的观测数据(经度一时间、 H(A,B)=max[h(A,B), (B,A)] (1) 纬度一时间)转化为曲线。由于该方法常用于经济数据的分析中, 在船舶轨迹聚类研究中,A(B)是船舶位置信息的集合,集 观测数据大多是等间隔,所以一般的用基函数表示的函数性数据 合中的元素。(b)代表船舶位置数据(经、纬度)。近年的研究 平方距离会假设节点分割均匀 。 在空间距离基础上加入了航向距离 以提高聚类经度。 针对船舶航行轨迹时间节点非均匀以及轨迹节点数量不相等 3含时间特征的船舶航行轨迹间距离 的特点,需要对平方距离算法作出调整。 Hausdorf距离仅仅利用了船舶位置信息,并未考虑到时间因 如图2,当把两条轨迹的时间标准化后,在同一坐标平面内画 素。而在以往的研究中,已有一套将离散的船舶航行轨迹修复方 出两条轨迹的纬度随时间变化的散点图,阴影部分的面积可以表 法,该方法以时间为自变量,经、纬度为因变量,通过三次样条 示为 插值方法建立船舶航行轨迹插值模型 』 n ( )=s t( ・)+s =1,2,...,n (2) d( √)=J0 (4) Llng(t )=Sl (t。)+8 公式(5)可视为度量轨迹1与轨迹2的相异程度的一种方 在此基础上,本文提出了含时间特征的船舶航行轨迹间距离 法,而平方欧氏距离公式(4)和公式(5)有类似的意义,并且, 的度量方法。 在加入平方项后,会进一步加强这种效果,使得同类数据集相似 在函数性数据聚类问题中,曲线相似性的度量方法多是采用 度更高,异类数据集更易区分。 绛度舔壤纯时阉 『 空间距离矩阵 1、3 2、4、5 I含时间特征的距离矩阵 2 1 3 4 5 练 从表3聚类结果中可以发现,两种距离矩阵下的聚类结果差 莲 异较大,需要判断哪一种结果更为符合实际情况。我们通过对原 始轨迹经、纬度数据变化趋势的观察,可以发现发现轨迹2的经、 纬度变化方向与其余4条轨迹的经、纬度变化方向正好相反,说 明轨迹2和轨迹1、3、4、5应该处于不同的航道上。所以,可以 得出结论:虽然传统的空间距离度量方法被多次验证,表明它适 漆纯曩嘻阍 用于大多数情况的船舶航行轨迹聚类,但在遇到复杂情况时,含 图2两条轨迹的纬度一时间豳 有时间特征的距离矩阵在处理复杂的船舶航行轨迹聚类中更加有 由于轨迹数据不满足节点分割均匀的假设,所以,在计算轨 效。并且,从公式(5)的定义中,可以发现含有时间特征的轨迹 迹间距离时,可采用定积分中的极限思想,利用分隔、近似替代、 间距离定义方式的另一个良好的性质:对于由于系统出现问题而 接收到异常值数据,积分公式不会受影响,而传统的距离度量方 求和、取极限的方法进行估计 ( , )= l( )一 ( )I 法易受到异常值的影响。 (5) 最后,对由公式(5)定义的距离矩阵聚类稳健性进行讨论。 同理可得经度轨迹间距离 从公式(5)可以看出轨迹间距离大小与n的取值有关, 不同的 取值对应不同的距离矩阵,所以, 的变化是否会对聚类结果产生 d ( , ): l y。( )一 (£ )l 影响。下面针对n的不同取值进行分析。分别取n等于100、1000、 轨迹间距离为 5000、10000,带人公式(5)计算出轨迹间距离矩阵,再利用K— d :d +d: (6) means算法进行聚类,结果如下 将轨迹1、轨迹2数据分别带入公式(1)和公式(5),计算 表4 n不同的取值对应的聚类绪果 得出的轨迹问空间距离距离为18.131和带有时间特征的轨迹距离 第一类 第二类 为47.6411。 lo0 2 1、3、4、5 4船舶航行轨迹聚类实例 下面选取5条来往于两港口间的船舶,分别利用空间距离和 1000 2 1、3、4、5 带时间特征的轨迹距离公式计算距离矩阵。 5000 2 1、3、4、5 表1 空间相似性距离矩阵 MMSI—l MMSr一2 MMSI一3 MMSI一4 MMSI一5 loo00 2 1、3、4、5 MMSI一1 1 O 0.0542 O.O462 0.6560l 从表4可以看出,n的不同取值对聚类结果没有影响,即该方 法定义的距离矩阵聚类结果稳健。 MMSI一2 0 1 2.005E—O5 0.3763 0.7065 5结束语 MMSI一3 0.0542 2.005E—O5 1 0.0463 0.6562 本文以船舶航行轨迹数据为研究对象,重新定义了轨迹点间 距离的度量方法——含有时间特征的轨迹距离。与传统方法相比, MMSr一4 0,0462 0.3763 0.O463 1 0.6937 新的距离函数能有效地抵抗异常值点的影响。经过验证,发现该 MMSI一5 0.6560 0.7065 0.6562 0.6937 1 方法能有效地处理较为复杂水域情况下的轨迹聚类问题,为空间 动态轨迹的研究提供了新思路。 袭2含时间特征的相似性距离矩阵 参考文献: MMSI一1 MMSI一2 MMSI一3 MMSI一4 MMSI一5 [1] 严明义.函数性数据的分析方法与经济应用.北京:中国 MMSI一1 1 0.1074 0.5198 O.5128 0.706l 财政经济出版社,2014 [2] 甄荣,邵哲平,潘家财,等.基于统计学理论的船舶轨迹 MMSI一2 0.1074 1 O.1147 0.3059 0.5825 异常识别.集美大学学报,2015,20(3):193—197 ● MMSI一3 0.5198 0.1147 1 0.5201 0.7135 [3] 唐存宝,邵哲平,唐强荣,等.基于AIS的船舶轨迹分布 算法.集美大学学报,2012,17(2):109—113 MMSI一4 0.5l28 0.3059 0.520l 1 0.7353 [4] 王超,纪永刚,黎明,等.一种考虑船舶航速航向的AIS MMSI一5 0.706l 0.5825 0.7135 0.7353 1 航迹插值方法.舰船科学技术,2015,37(4):60—64 [5] 刘立群,雾超仲,褚端峰.基于Vondrak滤波和三次样条插 计算出距离矩阵后,可以对轨迹进行聚类,通过聚类结果判 值的船舶轨迹修复研究.交通信息与安全,2015,33(4): 断新老方法的优劣。通过对原始数据的观察,可以将这两个港口 100—015 间来往的船舶航行轨迹分为两类。在可以确定聚类个数的情况下, [6] 曾玉钰,翁金钟.函数数据聚类分析方法探析.统计与信 选择K—means算法相对较快的进行聚类 。 息论坛,2007,22(5):10—14 调用R语言中的kmeans()函数,分别对表1和表2两个距 [7] 黄恒君.基于B一样条基底展开的曲线聚类方法.统计与 离矩阵进行聚类,聚类结果如下: 信息论坛,2013,28(9):3~8 表3两种距离定义方法的聚类结果 [8] 甄荣.基于AIS信息的港口水域船舶异常行为识别研究. 第一类 l 第二类 厦门:集美大学,2015