面向网络货运平台的异常轨迹跟踪检测策略

时间：2023-08-17 12:25:06 来源：网友投稿

齐晗

(安徽电子信息职业技术学院经济管理学院，安徽蚌埠 233030)

物流产业的蓬勃发展催生了网络货运平台的出现，而网络货运平台的发展改善物流的运输模式，提高客户的服务体验。为了提高网络货运平台的性能，准确、及时地发现异常货运轨迹尤为重要[1]。货运轨迹数据不仅反映了各类承运车辆的移动特征，还包含了有关服务提供商和客户的宝贵信息。通过监控所有承运车辆的行踪，异常轨迹检测系统可以显著提高网络货运平台的服务质量。近年来，自动异常轨迹检测的研究引起了广泛的关注，现有基于密度或隔离的异常检测策略虽然具有良好的性能，但仍然存在如下几点局限性[2-3]。首先，这些策略不能很好地刻画轨迹的序列信息，忽略了整个轨迹的序列信息对异常检测结果的影响。其次，多数现有的方法无法很好地适应稀疏的数据。再者，传统的异常轨迹检测方法需要计算历史数据集中每两条轨迹的相似度，而该计算过程会耗费大量的计算资源。针对现有面向网络货运平台研究存在的问题，本文提出了基于循环神经网络的异常轨迹检测策略(Network Freight Platform Anomaly Trajectory Tracking and Detection Strategy，NFP-ATTD)。NFP-ATTD通过循环神经网络使用低维向量表示轨迹，并检测嵌入空间中的异常轨迹。

NFP-ATTD主要包括三个步骤，即轨迹数据预处理、轨迹偏离检测和异常检测。轨迹数据预处理步骤对属于连续变量类型的轨迹点进行离散化。NFP-ATTD使用堆叠循环神经网络(SRNN)学习轨迹嵌入，以发掘有价值的序列信息和轨迹的内部特征，并使用多层感知器和softmax层检测异常。

图1 NFP-ATTD算法流程

异常轨迹包括轨迹偏离和轨迹异常值。轨迹偏离是指货运车辆的轨迹偏离了固定的路线。轨迹异常值是指轨迹点的高度、速度和方向的异常。NFP-ATTD算法流程图如图1所示。

为了不影响轨迹异常的检测，需要对缺失的数据进行填充。根据数据的分布情况，可以用均值和中位数来填充数据。如果数据是均匀分布的，则使用均值来填充数据，如果数据是非均匀分布的，则使用中值来填充数据。异常值描述符算法基于阈值来检测轨迹偏离。由于异常值描述符算法是检测静态数据，通过实验验证可以确定最近邻数参数和异常阈值。在计算轨迹的异常值描述符值后，将异常值描述符值高于阈值的轨迹判断为偏离轨迹，并将偏离轨迹剔除。

数据分为训练数据集和测试数据集。Bi-LSTM模型使用当前时间、前个时间和后个时间的信息。分别通过前向和后向LSTM提取轨迹特征。在特征提取过程中，每个轨迹点用一个5维向量表示：xt={经度，纬度，高度，方向，速度}。x0表示当前时间轨迹点的输入信息，x-t和xt分别表示x0之前和之后t个时刻的轨迹点信息。模型的输入是轨迹点向量序列，序列之间的特征由Bi-LSTM自动提取。在训练过程中，Bi-LSTM模型可以自动学习轨迹序列之间的关系。将测试集输入到经过训练的Bi-LSTM神经网络模型中，以预测轨迹时间序列。将预测序列值和真实序列值进行微分得到差分序列，通过支持向量域描述(SVDD)算法求解差分序列得到异常检测的阈值。在测试阶段，通过将差异与阈值进行比较来判断车辆的轨迹是否异常。

在异常检测中，局部异常因子(LOF)不仅可以很好地解决局部密度不一致的异常检测问题，而且可以很好地测量欧几里得距离所反映的位置异常。但是，对于多维目标轨迹数据，LOF无法针对不同需求测量目标的位置、速度和方向异常。基于动态时间规整(DTW)算法的多维异常值描述符可以作为多维轨迹的异常测量。多维异常值描述符不仅可以测量目标的位置异常，还可以同时测量目标的高度、速度和方向异常。轨迹数据是由多维数据点组成的多维序列，轨迹可以用以下集合表示：TD={TR1,…,TRi,…,TRn}，其中，TRi={Ri1,…,Rij,…,Rim}。Pij表示第i个轨迹中的第j个多维特征的向量。对于不同的轨迹TRi，m不一定相同。使用DTW相似度函数作为距离度量代替欧式距离来评估序列间的距离。轨迹TRA={TRA1,…,TRAi,…,TRAn}和轨迹TRB={TRB1,…,TRBi,…,TRBm}的多因素定向DTW距离δM由两点之间的多因素距离mfdist(Pa,Pb)定义，即：

mfdist(Pa,Pb)=wd×dist(Pa,Pb)+wv×dist(vPa,vPb)+wθ×dist(θPa,θPb)+wα×dist(αPa,αPb)

(1)

其中，vPa、vPb为点Pa和点Pb的速度，θPa和θPb分别是点Pa和点Pb的方向，αPa和αPb分别是点Pa和点Pb的加速特征。在多维轨迹的异常检测中，可以根据不同检测任务的需要，按比例确定四个特征权重的值。仅考虑位置异常时，权重可以分别设置为wd=1，wv=0，wθ=0，wα=0。基于定义的多因素距离mfdist(Pa,Pb)，扩展DTW距离的维度，将多维轨迹TRA和TRB之间的多因素DTW距离定义为：

δM(TRA,TRB)=mfdist(TRAi,TRBj)+min{mfdist(TRA(i-1),TRB(j-1)),

mfdist(TRA(i-1),TRBj),mfdist(TRAi,TRB(j-1))}

(2)

对于计算多维轨迹TRi的多维异常值描述符，首先计算轨道的多因素邻居边界距离，即：

δMb(TRi,k)=δM(TRi,NN(TRi,k))

(3)

随后，计算轨迹TRi的相邻轨道，即N(TRi,k)={TRj|δM(TRi,TRj)≤δMb(TRi,k)}。计算轨迹TRi到轨迹TRj的多因素可达距离，即δMr(TRi,TRj,k)=max{δMb(TRi,k),δM(TRi,TRj)}。计算轨迹TRi的最近邻密度，即：

(4)

轨迹TRi的多维异常值描述符如下所示：

(5)

Bi-LSTM 由前向长短期记忆网络(LSTM)和后向LSTM组成。因为轨迹异常值不是孤立发生的，所以Bi-LSTM模型的前向和后向结构更适合轨迹异常值检测。Bi-LSTM的结构如图2所示。

输入信号{x0,…,xn}将分别输入至输入前向LSTM模型和后向LSTM模型，输出前向隐式向量{hF0,…,hFn}和后向隐式向量{hB0,…,hbn}。

图2 Bi-LSTM模型结构

在轨迹数据中，每个轨迹点由一个5维向量表示：Ft={经度，纬度，高度，方向，速度}。对数据进行特征提取，形成模型的训练数据集。在Bi-LSTM网络的初始化阶段，初始权重矩阵被分配为均匀分布在[0,1]之间的随机数。最大迭代训练次数设置为256，窗口大小为32，学习率为0.001，最小误差值为0。在前向计算中，隐藏层将训练集X作为输入，Bi-LSTM模型包含双向LSTM隐藏层，在训练过程中提取了两组特征。每个LSTM隐藏层包含n个按时间顺序排列的单元，通过隐藏层的输出可以表示为：HF={HF0,…,HFn}和HB={HB0,…,HBn}。反向误差计算阶段从LSTM在前向和后向运动中转移特征并计算结果以获得真实值和预测值之间的差异损失，根据损失对整个网络进行回溯并修改参数。为了提高模型的泛化能力，在Bi-LSTM层和第一层的全连接层之间增加了dropout机制，防止模型过拟合[4]。当训练次数和误差值满足设定要求时，停止模型训练并预测测试集。

为解决车辆异常行为检测阈值的自适应问题，通过取本文预测的序列值与真实序列值的差值，可以得到差值序列。基于差分序列，实现了支持向量域描述(SVDD)分类器来判断飞行异常数据。SVDD分类器设计的主要思想分为几个步骤。首先，通过非线性映射将差分序列映射到高维空间。然后，在高维空间中找到包含所有或大部分差异序列样本的最小超球面。最后，将得到的超球面作为异常检测的判别边界(判别规则为：如果差分序列的样本点落入高维空间的超球面，则判别该样本点为法线点；
如果差分序列的样本点在高维空间中落在超球面之外，判断该样本点为异常点)。根据预测序列与真实序列的差序列，通过SVDD解可以得到超球面的半径r和圆心a，从而得到分类器。

数据集来自某货运平台，其中包含了从2020年1月7日至2021年1月29日从553辆货车收集得到轨迹数据。

粗粒度网格图和细粒度网格图对异常轨迹检测结果的影响有显着差异。使用细粒度的网格图可以获得更好的检测的性能，但计算时间会变长，而存储成本也会随之增大。在实际应用中，应考虑成本和性能的权衡。我们所选择区域的大小为80km×110km，n和m的值分别设置为800和1100，每个网格的大小为100m×100m。此次研究仅选取了有完整交易行为的轨迹作为研究对象，符合条件的轨迹数据由5个源和目的地对的轨迹组成。

实验部分使用准确率Φ、精度P、召回率R和F1度量作为指标进行性能评估，其计算方式如下所示：

(6)

其中TP、TN、FP和FN分别是真阳性、真阴性、假阳性和假阴性的数量。

实验所对比的算法有：(1)LCSS[5]：使用动态规划匹配两个序列之间的最长公共子序列，该算法是一种应用广泛的测量轨迹相似度的代表性方法，LCSS比较每个给定测试轨迹的训练集中的所有轨迹；
(2)Xgboost[6]：Xgboost是一个基于梯度提升决策树的模型，从轨迹中诸如轨迹距离、轨迹点之间的角度等特征；
(3)Lotad[7]：Lotad将数据处理为时间和空间段，通过计算数据的异常指数来检测异常时间和空间段。NFP-ATTD是基于TensorFlow实现，实验环境配置有16GB内存、英特尔酷睿i7-9700E处理器。在实验中，用NFP-ATTD-L表示使用LSTM作为RNN单元的模型，NFP-ATTD-G表示使用GRU作为RNN单元的模型，用NFP-ATTD-A表示使用注意力机制的模型。模型中有四个关键参数：嵌入维度、RNN层数、负样本数和dropout概率。每个点的维度设置为64，一个RNN单元的隐藏状态大小设置为64，负样本数设置为5，堆叠RNN的层数设置为 5，dropout概率设置为0.5。使用Adam[8]对模型进行优化。

异常轨迹检测结果如表1所示。由结果可知，NFP-ATTD-L、NFP-ATTD-G和NFP-ATTD-A获得较好的性能。该结果表明循环神经网络可以捕捉异常轨迹和正常轨迹的内部特征，而轨迹的序列信息对于异常轨迹检测至关重要。其中，NFP-ATTD-A优于NFP-ATTD-L和NFP-ATTD-G，这表明注意力机制可以从过去的序列中学习有价值的信息。事实上，一条轨迹通常是由一些关键点决定的。另外，LCSS和Xgboost的结果不理想的原因可能是那些方法只考虑了轨迹的形状，而忽略了历史数据集的信息和轨迹的序列信息。Lotad使用线性计算时间和空间段的异常指数，因此不能很好地捕获序列信息。

表1 异常检测对比结果

接下来研究了不同异常轨迹百分比下的模型性能。在实际应用中，异常值检测任务的瓶颈是缺乏足够的负样本，标记的数据是有限的，因此模型需要在异常轨迹数量较少时保持性能。实验将每个数据集中异常轨迹的百分比从5%降低到1%，在表4中展示了NFP-ATTD-A模型的性能。结果如图3所示。由该结果可知，随着异常轨迹百分比的增加，NFP-ATTD-A的性能逐渐提高。当异常轨迹数量较少时，NFP-ATTD-A模型难以区分异常与正常轨迹。

图3 不同异常轨迹数量下NFP-ATTD-A的性能表现

本文提出了NFP-ATTD，一个基于循环神经网络的网络货运平台异常轨迹跟踪检测策略。NFP-ATTD能捕获异常轨迹和正常轨迹之间的内部特征，并使用注意力机制来学习高质量的轨迹嵌入。实验结果表明NFP-ATTD要优于现有的轨迹检测方法。未来的工作将着重于结合诸如强化学习的新技术来扩展NFP-ATTD，以提高其跟踪检测性能。

猜你喜欢描述符货运轨迹基于结构信息的异源遥感图像局部特征描述符研究测绘学报(2022年12期)2022-02-13轨迹读友·少年文学(清雅版)(2020年4期)2020-08-24轨迹读友·少年文学(清雅版)(2020年3期)2020-07-24基于AKAZE的BOLD掩码描述符的匹配算法的研究计算机应用与软件(2020年6期)2020-06-16波音公司试飞电动垂直起降货运无人机无人机(2018年1期)2018-07-05轨迹现代装饰(2018年5期)2018-05-26Linux单线程并发服务器探索数字通信世界(2018年1期)2018-04-18AT200大型货运无人机实现首飞无人机(2017年10期)2017-07-06进化的轨迹（一）——进化，无尽的适应中国三峡(2017年2期)2017-06-09利用CNN的无人机遥感影像特征描述符学习测绘科学与工程(2017年5期)2017-05-07

推荐访问:轨迹货运跟踪