专利基于强化学习的检测模型训练方法及相关装置

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210625588.4 (22)申请日 2022.06.02 (71)申请人电子科技大学地址 610000 四川省成都市高新西区西源大道2006号 (72)发明人杜鸿飞　陈思颖　刘明　王晓敏　龚海刚　程旋　刘明辉　解天舒　邓佳丽　 (74)专利代理机构北京超凡宏宇专利代理事务所(特殊普通合伙) 11463 专利代理师张欣欣 (51)Int.Cl. G06V 10/774(2022.01) G06V 10/82(2022.01) G06V 10/764(2022.01)G06V 10/80(2022.01) G06V 10/22(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称基于强化学习的检测模型训练方法及相关装置 (57)摘要本申请提供的基于强化学习的检测模型训练方法及相关装置中，模型训练设备利用强化学习的思想，基于当前构建策略为多个初始模型构建不同的损失函数，用于训练出多个候选模型；然后，从多个候选模型中确定出训练效果最好的作为目标模型；并根据目标模型对病灶的识别精度更新构建策略；以及将目标模型复制多份作为下一轮迭代周期的多个初始模型。如此，经过至少一轮的迭代，获得满足预设条件的病灶检测模型。因此，在以上训练过程中，自动最优地选择损失函数，从而能够避免人为选择损失函数所引入的主观影响，从而在一定程度上提升所训练病灶检测模型的泛化能力。权利要求书2页说明书11页附图3页 CN 115240021 A 2022.10.25 CN 115240021 A 1.一种基于强化学习的检测模型训练方法，其特征在于，所述方法包括：根据当前的构建策略，为多个初始模型建立不同的损失函数；分别根据每个所述损失函数，训练所述损失函数对应的初始模型进行病灶识别，从而获得训练后的多个候选模型；从所述多个候选模型中选取训练效果最佳的作为目标模型；根据所述目标模型对病灶的识别精度，更新所述当前的构建策略；若所述目标模型不满足预设条件，则将所述目标模型复制多份，作为所述多个初始模型后，返回所述根据当前的构建策略，为多个初始模型建立不同的损失函数的步骤执行；若所述目标模型满足预设收敛条件，则将所述目标模型作为病灶检测模型。 2.根据权利要求1所述的基于强化学习的检测模型训练方法，其特征在于，所述从所述多个候选模型中选取训练效果最佳的作为目标模型，包括：通过所述多个候选模型对验证集中的病灶进行识别，获得所述多个候选模型各自的识别精度；根据所述多个候选模型各自的识别精度，将识别精度最高的作为所述目标模型。 3.根据权利要求2所述的基于强化学习的检测模型训练方法，其特征在于，所述多个初始模型对应有相同的目标函数，所述目标函数包括待初始化的超参数；所述根据当前的构建策略，为多个初始模型建立不同的损失函数，包括：根据当前正态分布函数，将每个所述目标函数的超参数进行初始化，从而建立每个所述初始模型的损失函数；其中，全部所述目标函数所对应超参数的初始化数值满足所述当前正态分布函数。 4.根据权利要求3所述的基于强化学习的检测模型训练方法，其特征在于，所述根据所述目标模型对病灶的识别精度，更新所述当前的构建策略，包括：将所述目标模型的识别精度作为策略奖励；根据所述策略奖励更新所述当前正态分布函数的位置参数。 5.根据权利要求4所述的基于强化学习的检测模型训练方法，其特征在于，所述根据所述奖励，通过以下表达式更新所述当前正态分布函数的位置参数：式中， g( θi； μt, σ )表示所述当前的正态分布函数， μt表示所述当前正态分布函数对应的位置参数， μt+1表示更新后的位置参数， σ 表示所述当前正态分布函数对应的尺度参数， η表示权重， B表示所述超参数的数量， θi表示所述目标模型对应损失函数中第i超参数的初始化数值， R( θi)表示所述策略奖励， ▽θ为偏导符号。 6.根据权利要求3所述的基于强化学习的检测模型训练方法，其特征在于，所述目标函数的表达式为：权　利　要　求　书 1/2 页 2 CN 115240021 A 2式中，为所述待初始化的超参数。 7.根据权利要求1 ‑6任意一项所述的基于强化学习的检测模型训练方法，其特征在于，基于多个所述病灶检测模型构建有状态检测模型，所述状态检测模型还包括综合信息处理层，所述方法还包括：获取目标人员同一部位不同时期的多张医学影像，其中，所述多张医学影像与多个所述病灶检测模型构一一对应；将所述多张医学影像分别对应的病灶检测模型，获得各所述医学影像的检测结果；将各所述医学影像的检测结果输入所述综合信息处理层，获得所述多张医学影像对应的状态信息。 8.一种强化学习的检测模型训练装置，其特征在于，所述强化学习的检测模型训练装置包括：函数构建模块，用于根据当前的构建策略，为多个初始模型建立不同的损失函数；模型训练模块，用于分别根据每个所述损失函数，训练所述损失函数对应的初始模型进行病灶识别，从而获得训练后的多个候选模型；策略更新模块，用于从所述多个候选模型中选取训练效果最佳的作为目标模型；所述策略更新模块，还用于根据所述目标模型对病灶的识别精度，更新所述当前的构建策略；模型迭代模块，用于若所述目标模型不满足预设条件，则将所述目标模型复制多份，作为所述多个初始模型后，返回所述根据当前的构建策略，为多个初始模型建立不同的损失函数的步骤执行；所述模型迭代模块，还用于若所述目标模型满足预设收敛条件，则将所述目标模型作为病灶检测模型。 9.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求 1‑7任意一项所述的基于强化学习的检测模型训练方法。 10.一种电子设备，其特征在于，所述电子设备包括处理器以及存储器，所述存储器存储有计算机程序，所述计算机程序被处理器执行时，实现权利要求 1‑7任意一项所述的基于强化学习的检测模型训练方法。权　利　要　求　书 2/2 页 3 CN 115240021 A 3

专利 基于强化学习的检测模型训练方法及相关装置

专利基于强化学习的检测模型训练方法及相关装置