王彦琛 杨飞 李荣玲 周涛

WANG Yanchen, YANG Fei, LI Rongling, ZHOU Tao. Influence of Location Frequency on Travel Mode Extraction Using Cellular Phone Data[J]. Journal of Southwest Jiaotong University, 2024, 59(5): 1158-1166. doi: 10.3969/j.issn.0258-2724.20220136
基金项目: 国家自然科学基金项目(52072313)




Influence of Location Frequency on Travel Mode Extraction Using Cellular Phone Data

    作为影响手机信令数据定位质量的关键因素,定位频率对交通方式的识别精度具有重要影响. 为量化定位频率与交通方式识别精度之间的变化规律,首先,提出一种基于随机森林的交通方式识别模型;其次,在通信运营商的协助下,通过开展实地数据采集实验,完成手机信令数据及对应真实出行信息的同步采集,并利用该数据集对本文提出的交通方式识别模型进行验证;最后,通过数据抽样形成一系列拥有不同定位频率的手机信令数据集,利用该系列数据集对不同定位频率下的交通方式识别精度进行评估研究. 研究结果表明:本文模型对步行、非机动车、汽车和公共交通4种交通方式的总体识别准确率为79.2%;每种交通方式对定位频率的敏感性不同,其中非机动车与公交的敏感性更高,步行和汽车的敏感性相对较低;随着平均定位频率从48 s/条下降至241 s/条,非机动车和公交的整体识别精度下降幅度分别约为19.2%和21.5%,而步行与汽车的整体识别精度则分别下降12.8%与11.5%;综合考虑识别准确率与计算效率两方面的需求,建议将60 s/条作为用户筛选与数据抽样的最佳阈值.


  • 图 1  相邻数据时间间隔分布

    Figure 1.  Distribution of time intervals between adjacent data

    图 2  定位距离误差分布

    Figure 2.  Distribution of location distance errors

    图 3  手机信令数据轨迹预处理效果

    Figure 3.  Pre-processing effect of cellular phone data

    图 4  累积距离与直线距离

    Figure 4.  Cumulative distance and linear distance

    图 5  随机森林的工作原理

    Figure 5.  Principle of random forest

    图 6  模型准确率随决策树数量的变化趋势

    Figure 6.  Model accuracy varying with the number of decision trees

    图 7  基于不同机器学习算法的模型识别效果

    Figure 7.  Recognition performances of different machine learning algorithms

    图 8  所有数据集的定位频率变化

    Figure 8.  Location frequency variation of all datasets

    图 9  不同定位频率下交通方式识别结果

    Figure 9.  Travel mode extraction results at different location frequencies

    表  1  手机信令数据样例

    Table  1.   Samples of cellular phone data

    用户全球标识码 设备标识码 位置区编号 基站小区编号
    460***340 2185***7347 34054 1710732
    460***340 2185***7347 34054 1710732
    460***340 2185***7347 34054 1678945
    日期 时刻 基站经度/(°) 基站纬度/(°)
    2019-9-21 9:00:34 106.6992 26.58389
    2019-9-21 9:01:41 106.7025 26.58639
    2019-9-21 9:02:10 106.7025 26.58639
    表  2  本研究使用的出行数据集构成

    Table  2.   Composition of dataset of interest

    交通方式 数据量/条 出行段量/个
    表  3  特征参数的重要度排名

    Table  3.   Characteristic parameters ranking in terms of importance

    变量 变量意义 重要度/%
    f 基站使用频率 10.02
    Z11 11 min 时间窗直线距离 8.45
    Ttotal 出行总时间 7.92
    DOD 出行 OD 距离 7.30
    Z9 9 min 时间窗直线距离 7.26
    VaveOD OD 间平均速度 6.96
    n 基站使用个数 6.36
    Z7 7 min 时间窗直线距离 5.23
    Z5 5 min 时间窗直线距离 5.16
    $ V_{\mathrm{ave}Z_{11}} $ 11 min 时间窗直线平均速度 4.04
    $ V_{\mathrm{ave}Z_9} $ 9 min 时间窗直线平均速度 3.54
    $ V_{\mathrm{ave}Z_7} $ 7 min 时间窗直线平均速度 3.51
    $ V_{\mathrm{ave}Z_5} $ 5 min 时间窗直线平均速度 2.98
    L11 11 min 时间窗累积距离 2.97
    L9 9 min 时间窗累积距离 2.54
    $ V_{\mathrm{ave}L_{11}} $ 11 min 时间窗累积平均速度 2.44
    $ V_{\mathrm{ave}L_9} $ 9 min 时间窗累积平均速度 2.40
    L7 7 min 时间窗累积距离 2.28
    $ V_{\mathrm{ave}L_7} $ 7 min 时间窗累积平均速度 2.08
    L5 5 min 时间窗累积距离 1.71
    $ V_{\mathrm{ave}L_5} $ 5 min 时间窗累积平均速度 1.50
    Tb 相邻数据的时间差 1.26
    Db 相邻数据的基站切换距离 1.10
    Vb 相邻数据的基站切换速度 1.02
    表  4  机器学习算法主要参数

    Table  4.   Main parameters in machine learning algorithms

    算法 参数设置 参数值
    支持向量机 核函数 径向基函数
    核参数 σ 0.25
    惩罚系数 $ \tau $ 1
    BP 神经网络 神经元层数/层 2
    神经元个数/个 (100,50)
    隐藏层激活函数 Relu
    权重优化算法 Sgd
    初始学习率 0.05
    表  5  测试集识别结果

    Table  5.   Recognition results of test dataset

    交通方式 出行段数量/个 识别结果/个
    步行 非机动 公交车 汽车
    步行 37 33 1 2 1
    非机动车 24 2 19 3 0
    公共交通 65 0 8 46 10
    汽车 58 0 2 9 47
    合计 184 35 30 60 58
    表  6  评价指标统计结果

    Table  6.   Statistical results of evaluation indicators

    交通方式 出行段数量/个 P/% R/% Fscore/%
    步行 37 94.3 89.2 91.7
    非机动车 24 63.3 79.2 70.4
    公共交通 65 76.7 71.9 74.2
    汽车 58 81.0 81.0 81.0
    合计 184 79.2 79.2 79.2
