说明:收录全网最新的团体标准 提供单次或批量下载
文库搜索
切换导航
文件分类
频道
仅15元无限下载
联系我们
问题反馈
文件分类
仅15元无限下载
联系我们
问题反馈
批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111664434.8 (22)申请日 2021.12.31 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 姜明 吴锴 张旻 (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱月芬 (51)Int.Cl. G16H 80/00(2018.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01)G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种结构化自监 督的医患对话摘要方法 (57)摘要 本发明公开了一种结构化自监督的医患对 话摘要方法。 本发明包括: 1、 对医患对话语料库 中指定对话的诊断结果抽取疾病实体词 Ⅰ; 2.通 过SOAP模型判断指定对话中每一句话对应主题 类型并进行分类, 得到初步的结构化内容; 对结 构化内容抽取摘要; 通过抽取的摘要预测疾病实 体词Ⅱ; 3、 基于抽取的摘要需近似于原始指定对 话的替换假设, 通过辅助任务进行摘要指导生 成:对结构化内容进行编码过程中对 结构化内容 中的每个词进行下采样, 然后通过文本分类从候 选疾病词中选择正确的疾病实体词 Ⅱ; 调整编码 参数直至辅助任务中疾病实体词 Ⅰ和疾病实体词 Ⅱ的差异收敛。 本发明解决了医患对话数据集有 限、 显著的领域 转移、 摘要不 准确的问题。 权利要求书2页 说明书6页 附图2页 CN 114334189 A 2022.04.12 CN 114334189 A 1.一种结构化自监 督的医患对话摘要方法, 其特 征在于: 该 方法包括以下步骤: S1、 对医患对话语料库中指定对话的诊断结果抽取疾病实体词I; S2、 通过SOAP模型判断指定对话中每一句话对应主题类型并进行分类, 得到初步的结 构化内容; 对结构化内容抽取摘要; 通过抽取的摘要预测疾病实体词I I; S3、 基于抽取的摘要需近似于原始指定对话的替换假设, 通过辅助任务进行摘要指导 生成: 首先对结构化内容进 行编码, 编码过程中对 结构化内容中的每个词进行下采样, 下采 样后将它们编码; 然后通过文本分类从候选疾病词中选择正确的疾病实体词II; 采用 RepSum策略调整编码参数, 直至 辅助任务中疾病实体词I和疾病实体词I I的差异收敛。 2.根据权利要求1所述的一种结构化自监督的医患对话摘要方法, 其特征在于步骤S1 文本生成TG采用编码 器‑解码器结构, 整个诊断结果由双向LSTM连接和编码; 每个词的表 示 是前向和后向LSTM 状态的串联, 表示编码中第i个词; 解码器采用具有注 意力机制的单向LSTM, 在t时刻的注意力分布at和上下文向量ct被公式化 为: 其中, Wa是可学习的参数, σ 是softmax函数, n表示诊断结果词的数量; st表示当前解码 器状态; 表示第i个词在t时刻的注意力分布; ai表示第i个词的注意力分布; 看上下文向量和当前解码器 状态st用于预测输出词在所有词汇 表上的概 率分布: p(yt)=σ(Wp(φ(Wk[yt‑1; st; ct]+bk))+bp) (3) 其中, Wp、 Wk、 bk、 bp是可学习的参数; σ 是softmax函数, φ是tanh函数, yt表示预测输出 词, yt‑1表示前一个预测输出词; p(yt)表示yt的概率分布; 采用负对数似然作为损失函数, 并通过路径encres→decres得到生成的损失 表示 为: 其中, encres表示编码器; decres表示解码器, l={l1, l2, ..., lq}是生成的词, q表示生成 的词数量; 类似地, 通过 encsum→decsum计算得到生成摘要的损失 其中, encsum表示编码器, decsum表示解码器; 为了保证基于原始指定对话和生成的摘要的结果相似性, 解码器中添加KL散度以减少 每个时间预测的概 率分布之间的差异损失: 因此, 最终生成摘要的任务损失表示 为: 其中, α0、 α1、 α2是每个损失部分的权 重。 3.根据权利要求1所述的一种结构化自监督的医患对话摘要方法, 其特征在于步骤S2 所述的主题类型包括症状、 用药、 个人属性、 检查结果、 过往病史; 使用SOAP模型对每一句话权 利 要 求 书 1/2 页 2 CN 114334189 A 2进行计算并标注对应主题, 形成初步的结构化内容。 4.根据权利要求1所述的一种结构化自监督的医患对话摘要方法, 其特征在于步骤S3 具体实现如下: 对结构化内容进行编码, 编码过程中对结构化内容中的每个词进行下采样, 并将它们 经过编码器编码; 在前向训练和 测试过程中, 使用argmax 采样进行离 散化, 简化 为: g=‑log(‑log( ξ )), ξ~U(0, 1) (9) 其中, g是Gumble函数的贡献, U是统一 化后的贡献; 计算反向传播中的梯度, 使用argmax 采样的连续可微近似: 其中, |V|是词汇大小, τ∈(0, ∞)是临时参数; gj表示第j个词的贡献; 表示第i个 词在t时间步骤的概 率; 编码器encsum的输入 表示为: 其中, e(wi)是第i个词wi嵌入; 辅助任务: 文本分类TC从K个候选疾病词中选择正确的疾病实体词II; 与任务TG中的编 码类似, 使用Bi ‑LSTM作为编码器; 文本表示hd是每个词的隐藏状态的平均值; 每个候选词 也由Bi‑LSTM编码, 并由逻辑层f投影到一个密集向量, 然后连接到hd; 每个词属于正确答案 的概率由逻辑层计算, 其损失 公式为: 其中, zn表示真实得到的第n个候选疾病词; 表示预测得到的第n个候选疾病词; 使用KL散度来衡量疾病实体词I和疾病实体词I I之间的差异: 其中, p(ucres)和p(ucsum)是在K个候选者中的概 率分布; 采用RepSum策略调整编码参数, 直至 辅助任务中两个疾病实体词差异收敛。权 利 要 求 书 2/2 页 3 CN 114334189 A 3
专利 一种结构化自监督的医患对话摘要方法
文档预览
中文文档
11 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
赞助1.5元下载(无需注册)
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
下载文档到电脑,方便使用
赞助1.5元下载
本文档由 人生无常 于
2024-03-19 00:19:01
上传分享
举报
下载
原文档
(799.1 KB)
分享
友情链接
GB-T 19604-2017 毒死蜱原药.pdf
GB-T 15843.4-2024 信息技术 安全技术 实体鉴别 第4部分:采用密码校验函数的机制.pdf
T-CAAMTB 19—2019 汽车零部件再制造企业管理体系 要求.pdf
GM-T 0097-2020 射频识别电子标签统一名称解析服务安全技术规范.pdf
GB-T 12572-2008 无线电发射设备参数通用要求和测量方法.pdf
DB11-T 2069-2022 生产安全事故调查与分析技术规范 北京市.pdf
T-QGCML 1699—2023 经营数据中台可视化运维监管云平台.pdf
信通院 量子信息技术发展与应用研究报告 2023年.pdf
GB-T 33173-2016 资产管理 管理体系 要求.pdf
GB-T 43046-2023 信息技术服务 应对突发公共安全事件的信息技术应急风险管理.pdf
GB-T 12538-2023 道路车辆 质心位置的测定.pdf
GB-T 351-2019 金属材料 电阻率测量方法.pdf
GB-T 37258-2018 氮化硅陶瓷粉体.pdf
IATF安全框架 中文版 .pdf
沙利文 眼科药物市场发展现状与未来趋势研究报告 2022.pdf
GBT 4109-2022 交流电压高于1000V的绝缘套管.pdf
T-CACM 1374.1—2021 中药材规范化生产技术规程通则植物药材.pdf
GB-T 3003-2017 耐火纤维及制品.pdf
GB-T 23776-2018 茶叶感官审评方法.pdf
GB-T 1151-2023 内燃机 主轴瓦及连杆轴瓦 技术条件.pdf
1
/
3
11
评价文档
赞助1.5元 点击下载(799.1 KB)
回到顶部
×
微信扫码支付
1.5
元 自动下载
官方客服微信:siduwenku
支付 完成后 如未跳转 点击这里 下载
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们
微信(点击查看客服)
,我们将及时删除相关资源。