说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111664434.8 (22)申请日 2021.12.31 (71)申请人 杭州电子科技大 学 地址 310018 浙江省杭州市下沙高教园区2 号大街 (72)发明人 姜明 吴锴 张旻  (74)专利代理 机构 杭州君度专利代理事务所 (特殊普通 合伙) 33240 代理人 朱月芬 (51)Int.Cl. G16H 80/00(2018.01) G06F 16/35(2019.01) G06F 40/126(2020.01) G06F 40/216(2020.01) G06F 40/284(2020.01)G06F 40/295(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种结构化自监 督的医患对话摘要方法 (57)摘要 本发明公开了一种结构化自监督的医患对 话摘要方法。 本发明包括: 1、 对医患对话语料库 中指定对话的诊断结果抽取疾病实体词 Ⅰ; 2.通 过SOAP模型判断指定对话中每一句话对应主题 类型并进行分类, 得到初步的结构化内容; 对结 构化内容抽取摘要; 通过抽取的摘要预测疾病实 体词Ⅱ; 3、 基于抽取的摘要需近似于原始指定对 话的替换假设, 通过辅助任务进行摘要指导生 成:对结构化内容进行编码过程中对 结构化内容 中的每个词进行下采样, 然后通过文本分类从候 选疾病词中选择正确的疾病实体词 Ⅱ; 调整编码 参数直至辅助任务中疾病实体词 Ⅰ和疾病实体词 Ⅱ的差异收敛。 本发明解决了医患对话数据集有 限、 显著的领域 转移、 摘要不 准确的问题。 权利要求书2页 说明书6页 附图2页 CN 114334189 A 2022.04.12 CN 114334189 A 1.一种结构化自监 督的医患对话摘要方法, 其特 征在于: 该 方法包括以下步骤: S1、 对医患对话语料库中指定对话的诊断结果抽取疾病实体词I; S2、 通过SOAP模型判断指定对话中每一句话对应主题类型并进行分类, 得到初步的结 构化内容; 对结构化内容抽取摘要; 通过抽取的摘要预测疾病实体词I I; S3、 基于抽取的摘要需近似于原始指定对话的替换假设, 通过辅助任务进行摘要指导 生成: 首先对结构化内容进 行编码, 编码过程中对 结构化内容中的每个词进行下采样, 下采 样后将它们编码; 然后通过文本分类从候选疾病词中选择正确的疾病实体词II; 采用 RepSum策略调整编码参数, 直至 辅助任务中疾病实体词I和疾病实体词I I的差异收敛。 2.根据权利要求1所述的一种结构化自监督的医患对话摘要方法, 其特征在于步骤S1 文本生成TG采用编码 器‑解码器结构, 整个诊断结果由双向LSTM连接和编码; 每个词的表 示 是前向和后向LSTM 状态的串联, 表示编码中第i个词; 解码器采用具有注 意力机制的单向LSTM, 在t时刻的注意力分布at和上下文向量ct被公式化 为: 其中, Wa是可学习的参数, σ 是softmax函数, n表示诊断结果词的数量; st表示当前解码 器状态; 表示第i个词在t时刻的注意力分布; ai表示第i个词的注意力分布; 看上下文向量和当前解码器 状态st用于预测输出词在所有词汇 表上的概 率分布: p(yt)=σ(Wp(φ(Wk[yt‑1; st; ct]+bk))+bp)      (3) 其中, Wp、 Wk、 bk、 bp是可学习的参数; σ 是softmax函数, φ是tanh函数, yt表示预测输出 词, yt‑1表示前一个预测输出词; p(yt)表示yt的概率分布; 采用负对数似然作为损失函数, 并通过路径encres→decres得到生成的损失 表示 为: 其中, encres表示编码器; decres表示解码器, l={l1, l2, ..., lq}是生成的词, q表示生成 的词数量; 类似地, 通过 encsum→decsum计算得到生成摘要的损失 其中, encsum表示编码器, decsum表示解码器; 为了保证基于原始指定对话和生成的摘要的结果相似性, 解码器中添加KL散度以减少 每个时间预测的概 率分布之间的差异损失: 因此, 最终生成摘要的任务损失表示 为: 其中, α0、 α1、 α2是每个损失部分的权 重。 3.根据权利要求1所述的一种结构化自监督的医患对话摘要方法, 其特征在于步骤S2 所述的主题类型包括症状、 用药、 个人属性、 检查结果、 过往病史; 使用SOAP模型对每一句话权 利 要 求 书 1/2 页 2 CN 114334189 A 2进行计算并标注对应主题, 形成初步的结构化内容。 4.根据权利要求1所述的一种结构化自监督的医患对话摘要方法, 其特征在于步骤S3 具体实现如下: 对结构化内容进行编码, 编码过程中对结构化内容中的每个词进行下采样, 并将它们 经过编码器编码; 在前向训练和 测试过程中, 使用argmax 采样进行离 散化, 简化 为: g=‑log(‑log( ξ )), ξ~U(0, 1)     (9) 其中, g是Gumble函数的贡献, U是统一 化后的贡献; 计算反向传播中的梯度, 使用argmax 采样的连续可微近似: 其中, |V|是词汇大小, τ∈(0, ∞)是临时参数; gj表示第j个词的贡献; 表示第i个 词在t时间步骤的概 率; 编码器encsum的输入 表示为: 其中, e(wi)是第i个词wi嵌入; 辅助任务: 文本分类TC从K个候选疾病词中选择正确的疾病实体词II; 与任务TG中的编 码类似, 使用Bi ‑LSTM作为编码器; 文本表示hd是每个词的隐藏状态的平均值; 每个候选词 也由Bi‑LSTM编码, 并由逻辑层f投影到一个密集向量, 然后连接到hd; 每个词属于正确答案 的概率由逻辑层计算, 其损失 公式为: 其中, zn表示真实得到的第n个候选疾病词; 表示预测得到的第n个候选疾病词; 使用KL散度来衡量疾病实体词I和疾病实体词I I之间的差异: 其中, p(ucres)和p(ucsum)是在K个候选者中的概 率分布; 采用RepSum策略调整编码参数, 直至 辅助任务中两个疾病实体词差异收敛。权 利 要 求 书 2/2 页 3 CN 114334189 A 3

.PDF文档 专利 一种结构化自监督的医患对话摘要方法

文档预览
中文文档 11 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共11页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种结构化自监督的医患对话摘要方法 第 1 页 专利 一种结构化自监督的医患对话摘要方法 第 2 页 专利 一种结构化自监督的医患对话摘要方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 00:19:01上传分享
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。