(19)国家知识产权局
(12)发明 专利
(10)授权公告 号
(45)授权公告日
(21)申请 号 202210638765.2
(22)申请日 2022.06.08
(65)同一申请的已公布的文献号
申请公布号 CN 114722208 A
(43)申请公布日 2022.07.08
(73)专利权人 成都健康医联信息产业有限公司
地址 610093 四川省成 都市武侯区天府大
道北段128 8号泰达时代中心1号楼6楼
(72)发明人 顾勤 宋梓语 赵婷 李正 曾怡
(74)专利代理 机构 成都九鼎天元知识产权代理
有限公司 51214
专利代理师 舒盛
(51)Int.Cl.
G06F 16/35(2019.01)
G06F 40/205(2020.01)
G06F 40/30(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
G16H 10/60(2018.01)(56)对比文件
CN 113920395 A,202 2.01.11
CN 105894088 A,2016.08.24
CN 108304573 A,2018.07.20
CN 106127255 A,2016.1 1.16
CN 113780423 A,2021.12.10
US 2020401938 A1,2020.12.24
CN 10846 0089 A,2018.08.28
US 202127957 7 A1,2021.09.09
US 6233365 B1,2001.05.15
US 10007865 B1,2018.0 6.26
张艳珍.IVOCT图像易损斑块自动检测方法
研究. 《中国优秀硕士学位 论文全文数据库 医药
卫生科技辑》 .2021,
Andrea Gasparet to等.A Survey o n Text
Classificati on Algorithm s: From Text to
Predicti ons. 《Informati on》 .2022,第13卷(第2
期),
审查员 王玮
(54)发明名称
一种健康医疗文本自动分类和安全等级自
动分级方法
(57)摘要
本发明提供一种健康医疗文本自动分类和
安全等级自动分级方法, 包括: 分别基于albert
神经网络模型、 RoBERTa神经网络模型和ERNIE ‑
Doc神经网络模型构造不同尺度文本语义特征理
解的预训练模 型; 对预训练模型进行两次预训练
得到针对健康医疗领域的预训练语 言模型; 通过
人工标注制作含有不同尺度文本语义的数据集;
针对下游分类任务对预训练语言模 型进行改造,
并利用数据集进行训练, 得到融合不同尺度文本
语义特征理解的文本类别分类器和文本安全等
级分类器; 利用文本类别分类器和文本安全等级
分类器进行自动分类和安全等级自动分级。 本发
明能够解决目前基于单一的深度学习技术的自动分类、 自动分级的效果 不好的问题。
权利要求书8页 说明书14页 附图9页
CN 114722208 B
2022.11.01
CN 114722208 B
1.一种健康医疗文本自动分类和安全等级自动分级方法, 其特 征在于, 包括如下步骤:
S100, 分别基于albert神经网络模型、 RoBERTa神经网络模型和ERNIE ‑Doc神经网络模
型构造不同尺度文本语义特 征理解的预训练模型;
S200, 对构造的预训练模型分别进行两次预训练, 得到针对健康医疗领域的预训练语
言模型;
S300, 通过对实际健康医疗业务中所用的健康医疗文本进行人工标注得到含有不同尺
度文本语义的数据集;
S400, 针对下游分类任务对预训练语言模型进行改造, 并利用含有不同尺度文本语义
的数据集进行训练, 得到融合不同尺度文本语义特征理解的文本类别分类器和文本安全等
级分类器;
S500, 利用融合不同尺度文本语义特征理解的文本类别分类器和文本安全等级分类器
对健康医疗文本进行自动分类和安全等级自动分级;
步骤S100中分别基于albert神经网络模型、 RoBERTa神经网络模型和ERNIE ‑Doc神经网
络模型构造不同尺度文本语义特 征理解的预训练模型的方法包括:
分别通过对albert神经网络模型、 RoBERTa神经网络模型和ERNIE ‑Doc神经网络模型的
特征抽取层进行改造, 得到不同尺度文本语义特征理解的预训练模型: 通过对alb ert神经
网络模型的特征抽取层进 行改造, 得到3个不同尺度的预训练模型, 分别为第一微型预训练
模型albert ‑small、 第一中型预训练模型albert ‑middle和第一大型预训练模型albert ‑
big; 通过对RoBERTa神经网络模型的特征抽取层进行改造, 得到3个不同尺度的预训练模
型, 分别为第二微型预训练模型RoBERTa ‑small、 第二中型预训练模型RoBERTa ‑middle和第
二大型预训练模型RoBERT a‑big; 通过对ERNIE ‑Doc神经网络模型的特征抽取层进行改造,
得到3个不同尺度的预训练模型, 分别 为第三微型预训练模型ERNIE ‑Doc‑small、 第三中型
预训练模型ERN IE‑Doc‑middle和第三大 型预训练模型ERN IE‑Doc‑big;
所述第一微型预训练模型albert ‑small、 第一中型预训练模型albert ‑middle和第一
大型预训练模 型albert ‑big含有不同数量的特征抽取层和自注 意力头; 所述第二微型预训
练模型RoBERTa ‑small、 第二中型预训练模型RoBERTa ‑middle和第二大型预训练模型
RoBERTa‑big含有不同数量的特征抽取层和自注意力头; 所述第三微型预训练模型ERNIE ‑
Doc‑small、 第三中型预训练模型ERNIE ‑Doc‑middle和第三大型预训练模型ERNIE ‑Doc‑big
含有不同数量的特征抽取层和自注意力头; 所述第一微型预训练模型albert ‑small、 第二
微型预训练模型RoBERTa ‑small和第三微型预训练模型ERNIE ‑Doc‑small含有相同数量的
特征抽取层, 所述第一中型预训练模型albert ‑small、 第二中型预训练模 型RoBERTa‑small
和第三中型预训练模型ERNIE ‑Doc‑small含有相同数量的特征抽取层, 所述第一大型预训
练模型albert ‑small、 第 二大型预训练模型RoBERTa ‑small和第三大型预训练模型ERNIE ‑
Doc‑small含有相同数量的特 征抽取层;
步骤S200中对构造的预训练模型分别进行两次预训练, 得到针对健康医疗领域的预训
练语言模型的方法包括:
S201, 使用大规模通用语料对不同尺度文本语义特征理解的预训练模型分别进行第一
次无监督学习预训练, 训练任务为在每一句话中随机遮住一定比例的字然后让预训练模型
对遮住的字进行 预测, 从而让 各个预训练模型 学习通用语料知识和语义关系;权 利 要 求 书 1/8 页
2
CN 114722208 B
2S202, 使用大规模健康医疗文本, 并采用第一次无监督学习预训练的方法, 对各个预训
练模型进 行第二次无监督学习预训练, 得到9个训练好的预训练语言模型, 分别命名为健康
医疗领域第一微型预训练语 言模型albert ‑small‑med、 健康医疗领域第一中型预训练语 言
模型albert ‑middle‑med、 健康医疗领域第一大型预训练语言模型albert ‑big‑med, 健康医
疗领域第二微型预训练语言模型RoBERTa ‑small‑med、 健康医疗领域第二中型预训练语言
模型RoBERTa ‑middle‑med、 健康医疗领域第二大型预训练语言模型 RoBERTa‑big‑med, 健康
医疗领域第三微型预训练语言模型ERNIE ‑Doc‑small‑med、 健康医疗领域第三中型预训练
语言模型ERNIE ‑Doc‑middle‑med、 健康医疗领域第三大型预训练语言模型ERNIE ‑Doc‑big‑
med;
S400中针对下游分类任务对预训练语言模型进行改造, 并利用含有不同尺度文本语义
的数据集进行训练, 得到融合 不同尺度文本语义特 征理解的文本类别分类 器的方法包括:
S4110, 对于第一微型预训练语言模型albert ‑small‑med、 健康医疗领域第一中型预训
练语言模型alber t‑middle‑med、 健康医疗领域第一大 型预训练语言模型alber t‑big‑med:
S4111, 在第一微型预训练语言模型albert ‑small‑med、 健康医疗领域第一中型预训练
语言模型albert ‑middle‑med、 健康医疗领域第 一大型预训练语言模型albert ‑big‑med的
最后一层分别接入softmax神经网络层, 分别得到健康医疗领域第一微型文本分类模型
albert‑small‑med‑cls、 健康医疗领域第一中型文本分类模型albert ‑middle‑med‑cls和
健康医疗领域第一大 型文本分类模型alber t‑big‑med‑cls;
S4112, 将第一尺度数据集、 第二尺度数据集和第三尺度数据集中的文本和对应的分类
标签分别送入健康医疗 领域第一微型文本分类模型albert ‑small
专利 一种健康医疗文本自动分类和安全等级自动分级方法
文档预览
中文文档
32 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共32页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:06:59上传分享