说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210540736.2 (22)申请日 2022.05.17 (71)申请人 平安科技 (深圳) 有限公司 地址 518000 广东省深圳市福田区福田街 道福安社区益田路5033号平 安金融中 心23楼 (72)发明人 胡意仪 阮晓雯 陈远旭  (74)专利代理 机构 深圳市沃德知识产权代理事 务所(普通 合伙) 44347 专利代理师 高杰 于志光 (51)Int.Cl. G16H 50/70(2018.01) G16H 50/20(2018.01) G16H 20/90(2018.01) G06F 40/295(2020.01)G06F 40/289(2020.01) G06F 40/268(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于知识结构及四诊性状的中医模型训练 方法、 装置 (57)摘要 本发明涉及智能决策技术, 揭露了一种基于 知识结构及四诊性状的中医模型训练方法, 包 括: 对中医语料数据集进行实体识别, 得到实体 结果, 并将所述实体结果进行分类, 得到各个类 型的医疗实体集合; 对所述医疗实体集合, 根据 预设的实体上下级关系, 构建链式样本集合; 对 所述链式样 本集合进行知识结构训练, 得到初级 中医诊断模型; 根据预设的掩码遮蔽策略, 利用 预构建的四诊文本集合对所述初级中医诊断模 型进行训练, 得到中医诊断模型。 本发明还提出 一种基于知识结构及四诊性状的中医模型训练 装置、 设备及存储介质。 本发明通过整理知识结 构与掩码预测四诊性状的方法, 训练得到诊断准 确率更高的中 医诊断模型。 权利要求书3页 说明书11页 附图5页 CN 114783618 A 2022.07.22 CN 114783618 A 1.一种基于知识结构及四诊性状的中 医模型训练方法, 其特 征在于, 所述方法包括: 对预构建的中医语料数据集进行实体识别, 得到实体结果, 并将所述实体结果进行分 类, 得到各个 类型的医疗实体集 合; 对所述医疗实体集 合, 根据预设的实体上 下级关系, 构建链式样本集 合; 对所述链式样本集 合进行知识结构训练, 得到初级中 医诊断模型; 获取四诊性状的诊断信息集合, 根据预设的预处理策略, 将所述四诊性状的诊断信息 集合进行转文本操作, 得到四诊 文本集合; 根据预设的掩码遮蔽方式和所述四诊文本集合, 对所述初级中医诊断模型进行训练, 得到中医诊断模型。 2.如权利要求1所述的基于知识结构及四诊性状的中医模型训练方法, 其特征在于, 所 述根据预设的掩码遮蔽方式和所述四诊文本集合对所述初级中医诊断模型进 行训练, 得到 中医诊断模型, 包括: 根据预设掩码和预设的遮蔽比例对所述四诊文本集合进行遮蔽, 得到遮蔽样本集, 其 中, 每个所述遮蔽样本包括至少一处被遮蔽; 根据预设比例, 将所述遮蔽样本集分配为训练集及测试集; 通过所述初级中 医诊断模型对所述遮蔽序列进行 预测, 得到预测结果; 计算所述预测结果与真实被遮蔽部分的损 失值, 并根据所述损 失值, 对所述初级中医 诊断模型进行反向更新, 得到更新诊断模型; 判断所述训练集中的遮蔽样本是否全部参与训练; 当所述训练集中的遮蔽样本未全部参与训练, 则返回上述利用所述初级中医诊断模 型, 对所述训练集中的遮蔽部分进行预测, 得到预测结果的步骤对所述更新诊断模型进行 迭代更新; 当所述训练集中的遮蔽样本全部参与训练, 则得到最终更新的更新诊断模型; 利用所述更新诊断模型对所述测试集进行对比预测, 得到预测准确度; 并在所述预测 准确度小于合格阈值时, 返回所述利用预设掩码, 根据预设的遮蔽比例, 对所述四诊文本集 合进行遮蔽, 得到遮蔽样本集的步骤, 对所述初级中 医诊断模型进行重新训练; 当所述预测准确度大于或等于所述 合格阈值时, 得到中 医诊断模型。 3.如权利要求1所述的基于知识结构及四诊性状的中医模型训练方法, 其特征在于, 所 述对所述链式样本集 合进行知识结构训练, 得到初级中 医诊断模型, 包括: 依次将所述链式样本集合中的链式样本导入预训练 的语义识别模型中, 对所述链式样 本中的各个医疗实体进行类型识别, 得到预测类型, 并预测各个所述医疗实体的下一阶段 类型对应的预测实体; 根据链式样本 中各个医疗实体的实际类型与真实下一实体, 对所述预测类型及所述预 测实体进行对比, 得到误差值; 最小化所述误差值, 得到误差值最小时的神经网络参数, 并利用所述神经网络参数进 行反向网络传播, 更新所述语义识别模型的模型参数, 得到更新模型; 记录所述 误差值, 并判断所述 误差值的收敛性; 当所述误差值不收敛时, 返回上述依次将所述链式样本集合中的一个链式样本导入预 构建的语义识别模型中的步骤, 对所述语义识别模型进行迭代更新;权 利 要 求 书 1/3 页 2 CN 114783618 A 2当所述误差值收敛时, 将最终更新的语义识别模型进行输出, 得到初级中 医诊断模型。 4.如权利要求1所述的基于知识结构及四诊性状的中医模型训练方法, 其特征在于, 所 述根据预设的预处理策略, 将所述四诊性状的诊断信息集合进行转文本操作, 得到四诊文 本集合, 包括: 将所述四诊性状中包含脸部、 舌部 图片的望诊断性状进行图像特征提取, 得到 图像特 征文本集 合; 将所述四诊性状中包含脉动规律的切诊断性状及包含听诊噪声的问诊断性状进行声 纹特征提取, 分别得到脉搏特 征文本集 合及听诊特 征文本集 合; 将所述图像特征文本集合、 所述脉搏特征文本集合、 所述听诊特征文本集合及所述四 诊性状中的问答文本作为四诊 文本集合。 5.如权利要求1所述的基于知识结构及四诊性状的中医模型训练方法, 其特征在于, 所 述对预构建的中 医语料数据集进行实体识别, 得到实体结果, 包括: 对所述中 医语料数据集进行分词, 并将分词结果进行词性标注, 得到医疗分词集 合; 对所述医疗分词集 合进行量 化操作, 得到量 化数据集 合; 利用预训练的实体提取网络对所述 量化数据集 合进行实体识别, 得到实体结果。 6.如权利要求1所述的基于知识结构及四诊性状的中医模型训练方法, 其特征在于, 所 述将所述实体结果进行分类, 得到各个 类型的医疗实体集 合, 包括: 根据预设的分类策略及类别集 合, 对所述实体结果进行初级分类, 得到初级分类结果; 将同一分类下的初级分类结果中的各个实体进行等级分类, 得到各个类型的医疗实体 集合。 7.如权利要求1所述的基于知识结构及四诊性状的中医模型训练方法, 其特征在于, 所 述对所述医疗实体集 合, 根据预设的实体上 下级关系, 构建链式样本集 合, 包括: 根据预设的实体上 下级关系, 将相邻类型医疗实体集 合中的医疗实体构建键值对; 根据所述键值对, 将各个所述医疗实体进行链式连接, 得到链式样本集 合。 8.一种基于知识结构及四诊性状的中 医模型训练装置, 其特 征在于, 所述装置包括: 知识样本获取模块, 用于对预构建的中医语料数据集进行实体识别, 得到实体结果, 并 将所述实体结果进 行分类, 得到各个类型的医疗实体集合, 及 对所述医疗实体集合, 根据预 设的实体上 下级关系, 构建链式样本集 合; 初级训练模块, 用于对所述链式样本集 合进行知识结构训练, 得到初级中 医诊断模型; 四诊性状样本获取模块, 用于获取四诊性状的诊断信息集合, 根据 预设的预处理策略, 将所述四诊性状的诊断信息集 合进行转文本操作, 得到四诊 文本集合; 微调训练模块, 用于根据预设的掩码遮蔽方式和所述 四诊文本集合对所述初级中医诊 断模型进行训练, 得到中 医诊断模型。 9.一种电子设备, 其特 征在于, 所述电子设备包括: 至少一个处 理器; 以及, 与所述至少一个处 理器通信连接的存 储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的计算机程序, 所述计算机程序被所 述至少一个处理器执行, 以使 所述至少一个处理器能够执行如权利要求 1至7中任意一项 所 述的基于知识结构及四诊性状的中 医模型训练方法。权 利 要 求 书 2/3 页 3 CN 114783618 A 3

.PDF文档 专利 基于知识结构及四诊性状的中医模型训练方法、装置

文档预览
中文文档 20 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共20页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识结构及四诊性状的中医模型训练方法、装置 第 1 页 专利 基于知识结构及四诊性状的中医模型训练方法、装置 第 2 页 专利 基于知识结构及四诊性状的中医模型训练方法、装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:04上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。