说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111436610.2 (22)申请日 2021.11.29 (71)申请人 上海保链科技有限公司 地址 201802 上海市嘉定区众仁路39 9号1 幢12层B区J5415室 (72)发明人 龚快快 (74)专利代理 机构 苏州京昀知识产权代理事务 所(普通合伙) 32570 代理人 顾友 (51)Int.Cl. G06F 40/289(2020.01) G06F 40/253(2020.01) G06N 20/00(2019.01) G16H 50/70(2018.01) (54)发明名称 基于医疗场景结合汉语特征的数据归一处 理方法及装置 (57)摘要 本申请提供了一种基于医疗场景结合汉语 特征的数据归一处理方法、 装置、 计算机设备及 存储介质, 方法包括: 获取待处理数据, 将待处理 数据输入至预设搜索引擎中进行完全匹配, 若完 全匹配未命中, 则在预设搜索引擎中按照预设匹 配规则进行模糊匹配, 获取多个候选词, 根据待 处理数据以及多个候选词计算每一候选词与待 处理数据的第一相似度, 根据待处理数据的上下 文信息以及多个候选词计算每一候选词与待处 理数据的第二相似度, 根据第一相似度以及第二 相似度从多个候选词中确定出待处理数据对应 的归一化目标词, 本发明通过从待处理数据的上 下文信息中提取有效特征参与到候选词与待处 理数据之间的相似度计算中, 提高对码的准确 率。 权利要求书2页 说明书10页 附图3页 CN 114201968 A 2022.03.18 CN 114201968 A 1.一种基于医疗场景 结合汉语特 征的数据归一处 理方法, 其特 征在于, 所述方法包括: 获取待处 理数据, 将所述待处 理数据输入至预设搜索引擎中进行完全匹配; 若完全匹配未命中, 则在所述预设搜索引擎中按照预设匹配规则进行模糊匹配, 获取 多个候选词; 根据所述待处理数据以及所述多个候选词计算每一所述候选词与所述待处理数据的 第一相似度; 根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词与所述 待处理数据的第二相似度; 根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处理数 据对应的归一 化目标词。 2.根据权利要求1所述的基于医疗场景结合汉语特征的数据归一处理方法, 其特征在 于, 所述根据所述待处理数据的上下文信息以及所述多个候选词计算每一所述候选词 与所 述待处理数据的第二相似度包括: 根据所述待处理数据的上下文提取预设特征, 并计算所述预设特征对应的预设特征向 量; 根据所述预设特征向量以及每一所述候选词的词向量计算得到每一所述候选词与所 述待处理数据的第二相似度。 3.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述根据所述待处理数据以及所述多个候选词计算每一所述候选词 与所述待处理数 据的第一相似度包括: 利用预先构建的词向量模型分别计算所述多个候选词的词向量以及所述待处理数据 的词向量; 根据每一所述候选词的词向量以及所述待处理数据的词向量计算得到每一所述候选 词与所述待处 理数据的第一相似度。 4.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述在所述预设搜索引擎中按照预设匹配规则进行模糊匹配, 获取多个候选词包括: 分别按照汉字、 拼音及部首匹配规则在所述预设搜索引擎中进行模糊匹配, 分别获取 对应的第一初筛词、 第二初筛词和第三初筛词; 根据所述第 一初筛词、 所述第 二初筛词以及所述第 三初筛词与 所述待处理数据的相似 度从所述第一初筛词、 所述第二初筛词以及所述第三初筛词中确定多个候选词。 5.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述方法还 包括: 在获取到所述待处理数据后, 对所述待处理数据进行预处理, 所述预处理至少包括将 繁体字转换为简体字; 所述将所述待处 理数据输入至预设搜索引擎中进行完全匹配包括: 将预处理后的所述待处 理数据输入至预设搜索引擎中进行完全匹配。 6.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述根据所述第一相似度以及所述第二相似度从所述多个候选词中确定出所述待处 理数据对应的归一 化目标词包括:权 利 要 求 书 1/2 页 2 CN 114201968 A 2根据所述第一相似度以及所述第二相似度的预设权重计算得到每一所述候选词与所 述待处理数据的加权相似度; 确定满足预设要求的所述加权相似度对应的候选词为所述待处理数据对应的归一化 目标词。 7.根据权利要求1或2所述的基于 医疗场景结合汉语特征的数据归一处理方法, 其特征 在于, 所述预设搜索引擎包括ElasticSearc h。 8.一种基于医疗场景 结合汉语特 征的数据归一处 理装置, 其特 征在于, 所述装置包括: 完全匹配模块, 用于获取待处理数据, 将所述待处理数据输入至预设搜索引擎中进行 完全匹配; 模糊匹配模块, 用于若完全匹配未命中, 则在所述预设搜索引擎中按照预设匹配规则 进行模糊匹配, 获取多个候选词; 第一计算模块, 用于根据所述待处理数据以及所述多个候选词计算每一所述候选词与 所述待处 理数据的第一相似度; 第二计算模块, 用于根据所述待处理数据的上下文信 息以及所述多个候选词计算每一 所述候选词与所述待处 理数据的第二相似度; 归一化模块, 用于根据 所述第一相似度以及所述第 二相似度从所述多个候选词中确定 出所述待处 理数据对应的归一 化目标词。 9.一种计算机设备, 其特征在于, 包括存储器和处理器, 所述存储器上存储有可在所述 处理器上运行的计算机程序, 当所述计算机程序被所述处理器执行时, 实现权利要求1~7 中任一项所述的基于医疗场景 结合汉语特 征的数据归一处 理方法。 10.一种计算机可读存储介质, 所述计算机可读存储介质内存储有计算机程序, 其特征 在于, 所述计算机程序被执行时, 实现权利要求1~7中任一项所述的基于医疗场景结合汉 语特征的数据归一处 理方法。权 利 要 求 书 2/2 页 3 CN 114201968 A 3
专利 基于医疗场景结合汉语特征的数据归一处理方法及装置
文档预览
中文文档
16 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共16页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 01:21:29
上传分享
举报
下载
原文档
(619.3 KB)
分享
友情链接
GB-T 42583-2023 信息安全技术 政务网络安全监测平台技术规范.pdf
DL-T 2038-2019 高压直流输电工程直流磁场测量方法.pdf
GB-T 34078.2-2021 基于云计算的电子政务公共平台总体规范 第2部分:顶层设计导则.pdf
T-SZSWA 007—2022 困境儿童关爱社会工作服务指南.pdf
GB-T 14352.13-2010 钨矿石、钼矿石化学分析方法 第13部分:锡量测定.pdf
炼石网络 数据存储加密技术白皮书 v1.8.pdf
GB-T 37033.1-2018 信息安全技术 射频识别系统密码应用技术要求 第1部分:密码安全保护.pdf
GB-T 28701-2012 胀紧联结套.pdf
GB-T 43578-2023 信息安全技术 通用密码服务接口规范.pdf
freebuf 2021企业安全运营实践研究报告.pdf
GB-T 33630-2017 海上风力发电机组 防腐规范.pdf
数据安全评估师ccrc-dsa.pdf
GB-T 15610-2008 同色异谱的目视评价方法.pdf
T-CPARK 14—2020 预制构件养护窑.pdf
YD-T 2669-2013 第三方安全服务能力评定准则.pdf
中国电信 云网运营自智白皮书 2022.pdf
GB-T 10002.2-2023 给水用硬聚氯乙烯 PVC-U 管件.pdf
GW0104-2014 国家电子政务外网 安全等级保护实施指南.pdf
信息安全组织管理制度.pdf
GB-T 16433-2009 残疾人田径运动员医学和功能分级.pdf
1
/
3
16
评价文档
赞助1.5元 点击下载(619.3 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。