说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210628078.2 (22)申请日 2022.06.06 (71)申请人 电子科技大 学 地址 611731 四川省成 都市高新区 (西区) 西源大道 2006号 (72)发明人 邓皓瀚 朱嘉静 刘勇国 张云  李巧勤  (74)专利代理 机构 成都虹盛汇泉专利代理有限 公司 51268 专利代理师 王伟 (51)Int.Cl. G16C 20/70(2019.01) G16C 20/50(2019.01) G06N 3/04(2006.01) G06N 3/08(2006.01)G06F 40/30(2020.01) (54)发明名称 多任务序列标注的药物实体和相互作用联 合抽取方法 (57)摘要 本发明公开了一种多任务序列标注的药物 实体和相互作用联合抽取方法, 包括以下步骤: S1、 数据预处理, 包括通用数据预处理、 药物实体 识别序列标注数据集构建、 药物相互作用抽取序 列标注数据集构建、 类别关键词词典获取; S2、 药 物命名实体识别; S3、 药物相互作用抽取; S4、 模 型训练与损失函数。 本发明将药物实体识别和相 互作用抽取问题转化为一种两阶段序列标注任 务, 合理利用两个任务之间的相互联系和数据集 已有的先验知识, 将类别关键词的先验知识融入 药物相互作用的抽取任务中, 从大量的生物医学 文献中快速高效地抽取药物实体和相互作用, 是 一种简单、 通用、 高效的标注模式。 权利要求书5页 说明书12页 附图3页 CN 115019906 A 2022.09.06 CN 115019906 A 1.多任务序列标注的药物实体和相互作用联合抽取 方法, 其特 征在于, 包括以下步骤: S1、 数据预处理, 包括通用数据预处理、 药物实体识别序列标注数据集构建、 药物相互 作用抽取序列标注数据集构建、 类别关键词 词典获取; S2、 药物命名实体识别; S3、 药物相互作用抽取; S4、 模型训练与损失函数。 2.根据权利要求1所述的多任务序列标注的药物实体和相互作用联合抽取方法, 其特 征在于, 所述 步骤S1具体实现方法为: S11、 通用数据预处理, 所用数据来自DDIExtraction2013挑战数据集, 包括以下子步 骤: S111、 删除仅包 含一个及以下 药物实体的文本; S112、 将药物相互作用描述文本全部转换为小写, 同时将所有标点符号和 非英文字符 去除; S113、 将药物相互作用描述文本中的所有数字全部用单词 “num”替换; S114、 设定最大句子长度为256, 如果句子不够最大长度, 用字符 “0”填充; 如果句子超 过最大长度, 则对 超出部分进行截断处 理; S12、 药物实体识别序列标注数据集构建: 解析DDIExtraction2013挑战数据集的xml文 件, 结合BIO标注模式和药物类别标签生成药物实体的最 终标签, 构建一个序列标注数据集 用于药物实体识别; 具体方法为: 采用BIO标注模式对数据样本进行标注, 实体词是指一个 或多个英文 单词组成的药物实体名称; 将非实体词用O标注, 实体词第一个单词用B表述, 后 面的单词用I标注; 同时引入四类药物类别标签: dru g、 group、 drug_n和brand, 将药物类别 标签拼接在 B、 I后面形成最终标签; S13、 药物相互作用抽取序列标注数据集构建: 在DDIExtraction2013挑战数据集中, 药 物相互作用分为五类, 分别为effect、 mech anism、 advice、 int和false; 通过解析原数据集 xml文件, 获得每一种药物与其他药物实体的相互作用; 结合BIO标注模式、 药物主客体类型 和药物相互作用为药物实体生成标签, 构造药物相互作用抽取序列标注数据集; 具体方法 为: 基于BIO标注模式, 指定一药物实体为药物主体, 使用 “B‑S”或“I‑S”标签对药物主体进 行标注, 其他药物实体则根据该实体与药物主体的相互作用进行 标注; 一句输入文本若包含n个药物实体, 则遍历n个实体, 依次作为药物主体, 生成n条序列 标注文本数据; 对每一条序列标注文本数据, 将药物主体的标签与上下文顺序在其之后的 药物实体的标签进行配对, 抽取出以该药物为主体的所有相互作用三元组, 获得输入文本 对应的所有序列标注文本抽取到的相互作用三元 组, 即是输入文本中包含的所有的药物相 互作用三元组; S14、 构造类别先验的关键词向量词典, 详细步骤如下: S141、 对S1 1预处理后的药物相互作用描述文本再进行以下处 理: 对于句中的某一对药物, 使用类别标签将句子文本主体进行 标记; 将药物相互作用对应的两个药物实体文本, 分别替换为 “相互作用类别_a ”和“相互作 用类别_b ”; 将无关药物实体名称替换为 “DRUG”;权 利 要 求 书 1/5 页 2 CN 115019906 A 2S142、 将S141处理好的相互作用描述文本X={x1,x2,...,xn}馈送至BioBert预训练模 型, 获得该文本的编码向量V={v1,v2,...,vn}, xi表示文本中的第i个单词, vi表示第i个词 对应的编码向量, n表示文本 长度: V=BioBert(X); S143、 对文本的嵌入单词向量求平均, 得到融合整个上下文语义信息的句子嵌入向量 S144、 将S142获得的单词嵌入向量逐一与S143获得的句子嵌入向量计算 余弦相似度: 其中, i表示文本中单词序号, 取值1~n; 将每个单词向量与句子向量的相似性得分Si mi降序排列; 根据其他语 料中的高频、 低价 值的停用 词构建停用 词表, 排除停用 词表中的所有单词, 再选出相似性得分最高的三个单 词作为该句的候选关键词; S145、 使用基于类别修正的TD ‑IDF算法完成关键词统计: 使用一种基于类别修正的TD ‑ IDF词频统计方法完成最终类别关键词的统计, 公式如下: TF‑IDFj(wi)=TFj(wi)×IDFj(wi) TFj(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的概率, 定 义如下: 其中count(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词出现的次 数, ∑count(w)表示药物相互作用类别为j的文本中总的候选关键词的数目; IDFj(wi)是基于类别修 正的逆文本频率指数, 其定义如下: 其中P(wi)表示单词wi在药物相互作用类别为j的文本中作为候选关键词 出现的概率, P′(wi)表示单词wi在除j以外的药物相互作用类别中出现的概 率之和; 在为每个药物相互作用类别下的词 汇完成基于类别修正的TF ‑IDF值的计算后, 选择每 个类别下TF ‑IDF值最高的十个单词作为该类别的关键词集; S146、 获取关键词向量: 将DDIExtraction2013挑战数据集按照四个正向药物相互作用 类别进行分类, 得到类别相关 的所有语句, 并使用word2vec模型分别在四个语料库上进行 预训练, 得到4个 类别相关的静态词向量表; 按照步骤S145得到的每一药物相互作用类别的关键词集, 分别从对应的类别相关的静 态词向量表中, 按照关键词集检索获得每一个关键词的低维嵌入向量, 称为关键词向量 k。 3.根据权利要求2所述的多任务序列标注的药物实体和相互作用联合抽取方法, 其特 征在于, 所述 步骤S2具体实现方法为: S21、 将步骤S12 获得的数据 集中的每一句输入文本的最前面插入一个特殊符号[CLS ],权 利 要 求 书 2/5 页 3 CN 115019906 A 3

.PDF文档 专利 多任务序列标注的药物实体和相互作用联合抽取方法

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 多任务序列标注的药物实体和相互作用联合抽取方法 第 1 页 专利 多任务序列标注的药物实体和相互作用联合抽取方法 第 2 页 专利 多任务序列标注的药物实体和相互作用联合抽取方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:31上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。