说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210638276.7 (22)申请日 2022.06.08 (71)申请人 长江大学 地址 434023 湖北省荆州市南环路1号长江 大学 (72)发明人 涂继辉 李李 刘琛 邱威 周翔  张庆 郑欢  (74)专利代理 机构 武汉维盾知识产权代理事务 所(普通合伙) 42244 专利代理师 蒋悦 (51)Int.Cl. G16H 15/00(2018.01) G06T 7/70(2017.01) G06T 7/11(2017.01) G06T 3/40(2006.01)G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称 基于记忆驱动的Tran sformer医学内窥镜图 像报告生成方法 (57)摘要 本 发 明 提 供 一 种 基 于 记 忆 驱 动 的 Transformer医学内窥镜图像报告生成方法, 包 括步骤: 步骤1, 使用分块 的Wide ResNet‑101模 型提取内窥镜图像中的病灶特征, 生成相应的特 征 向 量 。步 骤 2 ,基 于 自 注 意 力 机 制 的 Transformer编码器对内窥镜图像的分块特征进 行编码, 实现视觉特征和语义特性的融合。 步骤 3, 基于记忆驱动的Tran sformer解码器对编码器 产生的图像特征进行解码, 最后完成胶囊内窥镜 医学报告的自动生成。 本发明采用深度学习的方 法入手解决医学内窥镜图像报告自动生成。 权利要求书5页 说明书10页 附图3页 CN 114944213 A 2022.08.26 CN 114944213 A 1.一种基于记 忆驱动的Transformer医学内窥镜图像报告生成方法, 其特 征是: 步骤1, 为了提高网络的特征提取能力, 提取到更多的有效病灶信息, 对数据集图片进 行数据增强等操作; 步骤2, 对内窥镜图像使用W ide ResNet‑101模型来进行 特征提取; 步骤3, 把步骤2提取的图像特征输入并融合到Transformer编码器中, 负 责把图像特征 映射为隐藏层特 征向量; 步骤4, 使用基于记忆驱动的Transformer解码器对编码器产 生的隐藏层 特征向量进行 解码, 完成内窥镜诊断报告的自动生成。 2.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成 方法, 其特 征是: 步骤1中的具体流 程为: A1、 随机地从训练集中抽取一张胶囊内窥镜图像; A2、 将内窥镜图像进行比例缩放 为256×256 A3、 然后对 缩放后的图像进行随机 裁剪, 得到2 24×224大小的图像; A4、 对得到的图像进行随机翻转, 然后转 化为张量形式, 并进行 标准化处理。 3.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成 方法, 其特 征是: 步骤2中的具体流 程为: 将内窥镜图像经Wide  Resnet‑101网络模型的Conv1、 Conv2_x、 Conv3_x、 Conv4_x、 Conv5_x后得到内窥镜图像的特征图, 然后经过1*1的卷积映射再经过reshape, 得到特征向 量; 图像I, H0代表图像的高为224, W0代表图像的宽为224。 经模型提取的视觉特 征向量为F, 视觉特征提取过程表示为fν(·)。 使用Wide  ResNet‑101网络模型进行特征提 取的过程可写为: F=fν(I)   (1) 其中, 视觉特征向量F∈Rd×HW, d=512表示为网络通道数, 4.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成 方法, 其特征是: 步骤3, 把步骤2提取的图像特征加上对应的位置编码输入到Tr ansformer 编码器中, 负责把图像特征映射为隐藏层特征向量; Tr ansformer的编码器由6个相同的子 编码器所构成, 其中每一个子编码器由两个子层所组成, 具体实施如下: B1、 将输入的图像特 征F加上对应的位置编码PE, 然后输入到编码器中; 首先生成位置编码PE: 其中, 根据公式(2)(3)(4)(5)产生位置编码PE∈Rd×HW, 计算任意一个位置(posx,posy) 的位置编码, posx∈[1,W], posy∈[1,H], 通过(2)(3)可以计算得到posx的256维向量, 它代权 利 要 求 书 1/5 页 2 CN 114944213 A 2表posx的位置编码, 再通过(4)(5)可以计算得到posy的256维向量, 它代表posy的位置编码, 把这2个256维的向量拼接起来, 就得到了一个512维的向量, 代表(posx,posy)的位置编码。 计算所有位置的编码, 就得到了(512, HW)的张量也就是位置编码PE。 i=0,1,2,3, …,d/4表 示为正弦曲线的维度, 位置编码的每个维度对应一个正弦曲线, 即奇数位置的时候采用公 式(2)(4), 反之使用公式(3)(5); 然后将 输入的图像特征F加上对应的位置编码PE, 生 成的X 输入到编码器中: X=PE+F   (6) 其中, X表示加入了位置信息的特 征向量; B2、 编码器第 一个子层实现了多头自注意力机制, 该机制是实现了接收不同查询, 键与 值的线性映射的头部, 来并行产生输出, 并生 成最终结果。 然后生成的结果输入到残差和归 一化层: Q=Linearq(X)=X×Wq   (7) K=Lineark(X)=X×Wk   (8) V=Linearv(X)=X×Wv   (9) Xattn2=LayerNorm(X+Xattn1)   (11) 其中, 公式(7)(8)(9)(10)表示了多头自注意力层的操作过程, Q为查询向量, K为键向 量, V为值向量, 表示线性映射的权重, Linear表 示对X做 线性映射, dq, dk, dv分别是Q、 K、 V的维度, Xattn2是多头注意力机制的输出; Softmax的计 算公式为 其中zi为第i个节点的输出值, c为输出节点 的个数, 即 分类的类别个数; 公式(11)表示了残差和归一 化层的操作过程; LayerNorm的计算公式为 E(x)表示x的均值, Var[x]表示 为x的方差, ε=1e ‑6表示添加较小的值到方差中以防止分母除零; B3、 编码器第 二个子层是由全连接构 成的前馈神经网络层, 包括两个线性变换, 中间穿 插ReLU(Rectified  Linear Unit)激活函数, 然后再输入到残差与归一 化层: Xhidden1=Linear(ReLU(L inear(Xattn2)))   (12) Xhidden2=LayerNorm(Xattn2+Xhidden1)   (13) 其中, ReLU的计算公式为ReLU(x)=max(0,x)。 Xhidden2是第一个子编码器的第二个子层 残差与归一 化层的输出; fe(·)表示为编码器, fe1(·),fe2(·),…fe6(·)分别代表编码器的6个子编码器; 经过 6个相同的子编码器的操作计算之后, 最后输出为编码器的隐藏层特 征向量hi: hi=fe6(fe5(fe4(fe3(fe2(Xhidden2)))))   (14) 5.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成 方法, 其特 征是:权 利 要 求 书 2/5 页 3 CN 114944213 A 3

.PDF文档 专利 基于记忆驱动的Transformer医学内窥镜图像报告生成方法

文档预览
中文文档 19 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于记忆驱动的Transformer医学内窥镜图像报告生成方法 第 1 页 专利 基于记忆驱动的Transformer医学内窥镜图像报告生成方法 第 2 页 专利 基于记忆驱动的Transformer医学内窥镜图像报告生成方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 12:49:41上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。