说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111651228.3 (22)申请日 2021.12.3 0 (71)申请人 同济大学 地址 200092 上海市杨 浦区四平路1239号 (72)发明人 李健 王歆远  (74)专利代理 机构 上海科盛知识产权代理有限 公司 312 25 代理人 赵志远 (51)Int.Cl. G06K 9/62(2022.01) G06N 20/00(2019.01) G06Q 50/30(2012.01) (54)发明名称 一种基于RSF模 型的交通事故持续时间影响 因素分析方法 (57)摘要 本发明涉及一种基于RSF算法的交通事故持 续时间影响因素分析方法, 该方法包括以下步 骤: 步骤S1、 获取轨道交通事故数据, 预处理后得 到原始数据集; 步骤S2、 构建基于随机生存森林 模型的事故持续时间预测模型; 步骤S3、 基于C ‑ index求得的预测误差率选 取最优随机生存森 林 模型; 步骤S4、 通过变量重要性VIMP指标确定轨 道交通事故持续时间的影 响因素, 并计算重要程 度与现有技术相比, 本发明具有影 响因素识别准 确高、 适用性强的优点。 权利要求书2页 说明书6页 附图1页 CN 114372522 A 2022.04.19 CN 114372522 A 1.一种基于RSF算法的交通事故持续时间影响因素分析方法, 其特征在于, 该方法包括 以下步骤: 步骤S1、 获取轨道交通事故数据, 预处 理后得到原 始数据集; 步骤S2、 构建基于随机生存 森林模型的事故持续时间预测模型; 步骤S3、 基于 C‑index求得的预测误差率选取最优随机生存 森林模型; 步骤S4、 通过变量重要性VIMP指标确定轨道交通事故持续时间的影响因素, 并计算重 要程度。 2.根据权利要求1所述的一种基于RSF算法的交通事故持续时间影响因素分析方法, 其 特征在于, 所述 步骤S1具体为: 采用爬虫算法提取轨道 交通事故数据, 包括事故持续 时间、 事故类型、 事故区段以及发 布信息; 对于轨道交通事故数据进行文本信息提取, 并剔除重复、 缺失和异常的数据并对于事 故数据进 行拓展, 增加路线相关变量、 环境变量、 站 点相关变量、 事故相关变量、 事故类型变 量进行分析, 获得原 始数据集D。 3.根据权利要求1所述的一种基于RSF算法的交通事故持续时间影响因素分析方法, 其 特征在于, 所述 步骤S2包括以下子步骤: 步骤S21、 利用bo otstrap法从原 始数据集D中分离出训练数据集 L以及测试 数据集L′; 步骤S22、 构建二元递归生存树, 随机选取预定数量的特征进行拆分, 并对比不同节点 拆分规则, 选择对子节点生存值差异 最大的节点拆分规则进 行拆分, 尽可能地生长生存树, 直到每个末端节点的样本数不低于最小默认值; 步骤S23、 在生成预设数量的生存树后, 采用Nelson ‑Aalen方法估计随机生存森林模型 的总累积风险。 4.根据权利要求3所述的一种基于RSF算法的交通事故持续时间影响因素分析方法, 其 特征在于, 所述步骤S21中原始数据集D表示为(X1, T1, δ1), ..., (Xn, Tn, δn), 其中, X表示事件 影响因素对应的特 征向量, T表示事 件的持续时间, δ表示删失状态。 5.根据权利要求4所述的一种基于RSF算法的交通事故持续时间影响因素分析方法, 其 特征在于, 所述步骤S22中的不同节点拆分规则包括Log ‑rank拆分法、 Log ‑rank score拆分 法以及Random拆分法。 6.根据权利要求3所述的一种基于RSF算法的交通事故持续时间影响因素分析方法, 其 特征在于, 所述 步骤S23具体为: 对于终端节点h, 第l棵树的C HF累积危险函数为: 其中, 为终端节点h, 第l棵树的CHF累积危险函数值; dl, h为终端节点h中事故持续 时间大于tl, h的样本数, Yl, h为终端节点h中事故持续时间大于tl, h时发生事 件的样本数; 则对于整个随机森林模型样本的总 累积风险为:权 利 要 求 书 1/2 页 2 CN 114372522 A 2其中, L为生存树数目; xe为整个随机森林模型的样本 。 7.根据权利要求1所述的一种基于RSF算法的交通事故持续时间影响因素分析方法, 其 特征在于, 所述步骤S3具体为: 采用C ‑index计算OOD预测误差, 计算不同生存树、 拆分规则 所构建的随机生存 森林模型的预测误差率, 选择最优随机生存 森林模型。 8.根据权利要求7所述的一种基于RSF算法的交通事故持续时间影响因素分析方法, 其 特征在于, 所述采用C ‑index计算O OD预测误差, 具体过程如下: 将所有的事故数据{i, j}进行配对, n次事故共计生成包 含 事故配对数据的集 合Ω*; 对集合Ω*进行关于删失数据的预处 理, 得到用于计算C ‑index的集 合Ω; 计算集合Ω中预测结果排序与原数据一致的配对数与集合Ω的配对数的比值, 得到C ‑ index值: 其中, I表示判断函数, 分别表示对于事故i和j的预测生存概 率; 则OOD预测误差为1 ‑C。 9.根据权利要求8所述的一种基于RSF算法的交通事故持续时间影响因素分析方法, 其 特征在于, 所述对集合Ω*进行关于删失数据的预处理具体为: 从集合Ω*排除拥有以下特征 的配对: 1)配对中持续时间小于预设阈值的事故为删失数据; 2)配对中的事故持续时间相同(Ti=Tj)且删失特征不为( δi=1, δj=0)、 ( δi=0, δj= 1)、 ( δi=1, δj=1); 3)配对中的事故均为未发生的删失数据。 10.根据权利要求7所述的一种基于RSF算法的交通事故持续时间影响因素分析方法, 其特征在于, 所述 步骤S4具体为: 步骤S41、 在显著性检验过程中, 通过随机置换变量的值, 并将预测误差与原来的OOB 预 测误差进行比较, 得到对于特定变量x的变量重要性VIMP参数: 其中, Cx为最优随机生存森林模型的C ‑index参数; 表示当利用测试数据计算OOD预 测误差时, 在所有利用变量x进行拆分的节点中, 随机分配得到的随机生存森林模型的C ‑ index参数; 步骤S42、 得到变量重要性VIMP结果后, 根据VIMP值的大小重新构造随机生存森林模 型; 删除变量中对模 型预测有负贡献的变量, 并重新构建新模型; 反复迭代得到V IMP值均大 于0的预测模型; 步骤S43、 设定VIMP显著变量参考值, 对于有显著影响的变量, 进行描述性与相关性统 计, 识别影响轨道交通事故持续时间的风险因素。权 利 要 求 书 2/2 页 3 CN 114372522 A 3

.PDF文档 专利 一种基于RSF模型的交通事故持续时间影响因素分析方法

文档预览
中文文档 10 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种基于RSF模型的交通事故持续时间影响因素分析方法 第 1 页 专利 一种基于RSF模型的交通事故持续时间影响因素分析方法 第 2 页 专利 一种基于RSF模型的交通事故持续时间影响因素分析方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 19:27:57上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。