(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210638276.7
(22)申请日 2022.06.08
(71)申请人 长江大学
地址 434023 湖北省荆州市南环路1号长江
大学
(72)发明人 涂继辉 李李 刘琛 邱威 周翔
张庆 郑欢
(74)专利代理 机构 武汉维盾知识产权代理事务
所(普通合伙) 42244
专利代理师 蒋悦
(51)Int.Cl.
G16H 15/00(2018.01)
G06T 7/70(2017.01)
G06T 7/11(2017.01)
G06T 3/40(2006.01)G06N 3/08(2006.01)
G06N 3/04(2006.01)
G06K 9/62(2022.01)
G06V 10/80(2022.01)
G06V 10/82(2022.01)
(54)发明名称
基于记忆驱动的Tran sformer医学内窥镜图
像报告生成方法
(57)摘要
本 发 明 提 供 一 种 基 于 记 忆 驱 动 的
Transformer医学内窥镜图像报告生成方法, 包
括步骤: 步骤1, 使用分块 的Wide ResNet‑101模
型提取内窥镜图像中的病灶特征, 生成相应的特
征 向 量 。步 骤 2 ,基 于 自 注 意 力 机 制 的
Transformer编码器对内窥镜图像的分块特征进
行编码, 实现视觉特征和语义特性的融合。 步骤
3, 基于记忆驱动的Tran sformer解码器对编码器
产生的图像特征进行解码, 最后完成胶囊内窥镜
医学报告的自动生成。 本发明采用深度学习的方
法入手解决医学内窥镜图像报告自动生成。
权利要求书5页 说明书10页 附图3页
CN 114944213 A
2022.08.26
CN 114944213 A
1.一种基于记 忆驱动的Transformer医学内窥镜图像报告生成方法, 其特 征是:
步骤1, 为了提高网络的特征提取能力, 提取到更多的有效病灶信息, 对数据集图片进
行数据增强等操作;
步骤2, 对内窥镜图像使用W ide ResNet‑101模型来进行 特征提取;
步骤3, 把步骤2提取的图像特征输入并融合到Transformer编码器中, 负 责把图像特征
映射为隐藏层特 征向量;
步骤4, 使用基于记忆驱动的Transformer解码器对编码器产 生的隐藏层 特征向量进行
解码, 完成内窥镜诊断报告的自动生成。
2.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成
方法, 其特 征是: 步骤1中的具体流 程为:
A1、 随机地从训练集中抽取一张胶囊内窥镜图像;
A2、 将内窥镜图像进行比例缩放 为256×256
A3、 然后对 缩放后的图像进行随机 裁剪, 得到2 24×224大小的图像;
A4、 对得到的图像进行随机翻转, 然后转 化为张量形式, 并进行 标准化处理。
3.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成
方法, 其特 征是: 步骤2中的具体流 程为:
将内窥镜图像经Wide Resnet‑101网络模型的Conv1、 Conv2_x、 Conv3_x、 Conv4_x、
Conv5_x后得到内窥镜图像的特征图, 然后经过1*1的卷积映射再经过reshape, 得到特征向
量;
图像I,
H0代表图像的高为224, W0代表图像的宽为224。 经模型提取的视觉特
征向量为F, 视觉特征提取过程表示为fν(·)。 使用Wide ResNet‑101网络模型进行特征提
取的过程可写为:
F=fν(I) (1)
其中, 视觉特征向量F∈Rd×HW, d=512表示为网络通道数,
4.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成
方法, 其特征是: 步骤3, 把步骤2提取的图像特征加上对应的位置编码输入到Tr ansformer
编码器中, 负责把图像特征映射为隐藏层特征向量; Tr ansformer的编码器由6个相同的子
编码器所构成, 其中每一个子编码器由两个子层所组成, 具体实施如下:
B1、 将输入的图像特 征F加上对应的位置编码PE, 然后输入到编码器中;
首先生成位置编码PE:
其中, 根据公式(2)(3)(4)(5)产生位置编码PE∈Rd×HW, 计算任意一个位置(posx,posy)
的位置编码, posx∈[1,W], posy∈[1,H], 通过(2)(3)可以计算得到posx的256维向量, 它代权 利 要 求 书 1/5 页
2
CN 114944213 A
2表posx的位置编码, 再通过(4)(5)可以计算得到posy的256维向量, 它代表posy的位置编码,
把这2个256维的向量拼接起来, 就得到了一个512维的向量, 代表(posx,posy)的位置编码。
计算所有位置的编码, 就得到了(512, HW)的张量也就是位置编码PE。 i=0,1,2,3, …,d/4表
示为正弦曲线的维度, 位置编码的每个维度对应一个正弦曲线, 即奇数位置的时候采用公
式(2)(4), 反之使用公式(3)(5); 然后将 输入的图像特征F加上对应的位置编码PE, 生 成的X
输入到编码器中:
X=PE+F (6)
其中, X表示加入了位置信息的特 征向量;
B2、 编码器第 一个子层实现了多头自注意力机制, 该机制是实现了接收不同查询, 键与
值的线性映射的头部, 来并行产生输出, 并生 成最终结果。 然后生成的结果输入到残差和归
一化层:
Q=Linearq(X)=X×Wq (7)
K=Lineark(X)=X×Wk (8)
V=Linearv(X)=X×Wv (9)
Xattn2=LayerNorm(X+Xattn1) (11)
其中, 公式(7)(8)(9)(10)表示了多头自注意力层的操作过程, Q为查询向量, K为键向
量, V为值向量,
表示线性映射的权重, Linear表 示对X做
线性映射, dq, dk, dv分别是Q、 K、 V的维度, Xattn2是多头注意力机制的输出;
Softmax的计 算公式为
其中zi为第i个节点的输出值, c为输出节点
的个数, 即 分类的类别个数;
公式(11)表示了残差和归一 化层的操作过程;
LayerNorm的计算公式为
E(x)表示x的均值, Var[x]表示
为x的方差, ε=1e ‑6表示添加较小的值到方差中以防止分母除零;
B3、 编码器第 二个子层是由全连接构 成的前馈神经网络层, 包括两个线性变换, 中间穿
插ReLU(Rectified Linear Unit)激活函数, 然后再输入到残差与归一 化层:
Xhidden1=Linear(ReLU(L inear(Xattn2))) (12)
Xhidden2=LayerNorm(Xattn2+Xhidden1) (13)
其中, ReLU的计算公式为ReLU(x)=max(0,x)。 Xhidden2是第一个子编码器的第二个子层
残差与归一 化层的输出;
fe(·)表示为编码器, fe1(·),fe2(·),…fe6(·)分别代表编码器的6个子编码器; 经过
6个相同的子编码器的操作计算之后, 最后输出为编码器的隐藏层特 征向量hi:
hi=fe6(fe5(fe4(fe3(fe2(Xhidden2))))) (14)
5.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成
方法, 其特 征是:权 利 要 求 书 2/5 页
3
CN 114944213 A
3
专利 基于记忆驱动的Transformer医学内窥镜图像报告生成方法
文档预览
中文文档
19 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共19页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 12:49:41上传分享