专利基于记忆驱动的Transformer医学内窥镜图像报告生成方法

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210638276.7 (22)申请日 2022.06.08 (71)申请人长江大学地址 434023 湖北省荆州市南环路1号长江大学 (72)发明人涂继辉　李李　刘琛　邱威　周翔　张庆　郑欢　 (74)专利代理机构武汉维盾知识产权代理事务所(普通合伙) 42244 专利代理师蒋悦 (51)Int.Cl. G16H 15/00(2018.01) G06T 7/70(2017.01) G06T 7/11(2017.01) G06T 3/40(2006.01)G06N 3/08(2006.01) G06N 3/04(2006.01) G06K 9/62(2022.01) G06V 10/80(2022.01) G06V 10/82(2022.01) (54)发明名称基于记忆驱动的Tran sformer医学内窥镜图像报告生成方法 (57)摘要本发明提供一种基于记忆驱动的 Transformer医学内窥镜图像报告生成方法，包括步骤：步骤1，使用分块的Wide ResNet‑101模型提取内窥镜图像中的病灶特征，生成相应的特征向量。步骤 2 ，基于自注意力机制的 Transformer编码器对内窥镜图像的分块特征进行编码，实现视觉特征和语义特性的融合。步骤 3，基于记忆驱动的Tran sformer解码器对编码器产生的图像特征进行解码，最后完成胶囊内窥镜医学报告的自动生成。本发明采用深度学习的方法入手解决医学内窥镜图像报告自动生成。权利要求书5页说明书10页附图3页 CN 114944213 A 2022.08.26 CN 114944213 A 1.一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法，其特征是：步骤1，为了提高网络的特征提取能力，提取到更多的有效病灶信息，对数据集图片进行数据增强等操作；步骤2，对内窥镜图像使用W ide ResNet‑101模型来进行特征提取；步骤3，把步骤2提取的图像特征输入并融合到Transformer编码器中，负责把图像特征映射为隐藏层特征向量；步骤4，使用基于记忆驱动的Transformer解码器对编码器产生的隐藏层特征向量进行解码，完成内窥镜诊断报告的自动生成。 2.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法，其特征是：步骤1中的具体流程为： A1、随机地从训练集中抽取一张胶囊内窥镜图像； A2、将内窥镜图像进行比例缩放为256×256 A3、然后对缩放后的图像进行随机裁剪，得到2 24×224大小的图像； A4、对得到的图像进行随机翻转，然后转化为张量形式，并进行标准化处理。 3.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法，其特征是：步骤2中的具体流程为：将内窥镜图像经Wide Resnet‑101网络模型的Conv1、 Conv2_x、 Conv3_x、 Conv4_x、 Conv5_x后得到内窥镜图像的特征图，然后经过1*1的卷积映射再经过reshape，得到特征向量；图像I， H0代表图像的高为224， W0代表图像的宽为224。经模型提取的视觉特征向量为F，视觉特征提取过程表示为fν(·)。使用Wide ResNet‑101网络模型进行特征提取的过程可写为： F＝fν(I) (1) 其中，视觉特征向量F∈Rd×HW， d＝512表示为网络通道数， 4.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法，其特征是：步骤3，把步骤2提取的图像特征加上对应的位置编码输入到Tr ansformer 编码器中，负责把图像特征映射为隐藏层特征向量； Tr ansformer的编码器由6个相同的子编码器所构成，其中每一个子编码器由两个子层所组成，具体实施如下： B1、将输入的图像特征F加上对应的位置编码PE，然后输入到编码器中；首先生成位置编码PE：其中，根据公式(2)(3)(4)(5)产生位置编码PE∈Rd×HW，计算任意一个位置(posx,posy) 的位置编码， posx∈[1,W]， posy∈[1,H]，通过(2)(3)可以计算得到posx的256维向量，它代权　利　要　求　书 1/5 页 2 CN 114944213 A 2表posx的位置编码，再通过(4)(5)可以计算得到posy的256维向量，它代表posy的位置编码，把这2个256维的向量拼接起来，就得到了一个512维的向量，代表(posx,posy)的位置编码。计算所有位置的编码，就得到了(512， HW)的张量也就是位置编码PE。 i＝0,1,2,3, …,d/4表示为正弦曲线的维度，位置编码的每个维度对应一个正弦曲线，即奇数位置的时候采用公式(2)(4)，反之使用公式(3)(5)；然后将输入的图像特征F加上对应的位置编码PE，生成的X 输入到编码器中： X＝PE+F (6) 其中， X表示加入了位置信息的特征向量； B2、编码器第一个子层实现了多头自注意力机制，该机制是实现了接收不同查询，键与值的线性映射的头部，来并行产生输出，并生成最终结果。然后生成的结果输入到残差和归一化层： Q＝Linearq(X)＝X×Wq (7) K＝Lineark(X)＝X×Wk (8) V＝Linearv(X)＝X×Wv (9) Xattn2＝LayerNorm(X+Xattn1) (11) 其中，公式(7)(8)(9)(10)表示了多头自注意力层的操作过程， Q为查询向量， K为键向量， V为值向量，表示线性映射的权重， Linear表示对X做线性映射， dq， dk， dv分别是Q、 K、 V的维度， Xattn2是多头注意力机制的输出； Softmax的计算公式为其中zi为第i个节点的输出值， c为输出节点的个数，即分类的类别个数；公式(11)表示了残差和归一化层的操作过程； LayerNorm的计算公式为 E(x)表示x的均值， Var[x]表示为x的方差， ε＝1e ‑6表示添加较小的值到方差中以防止分母除零； B3、编码器第二个子层是由全连接构成的前馈神经网络层，包括两个线性变换，中间穿插ReLU(Rectified Linear Unit)激活函数，然后再输入到残差与归一化层： Xhidden1＝Linear(ReLU(L inear(Xattn2))) (12) Xhidden2＝LayerNorm(Xattn2+Xhidden1) (13) 其中， ReLU的计算公式为ReLU(x)＝max(0,x)。 Xhidden2是第一个子编码器的第二个子层残差与归一化层的输出； fe(·)表示为编码器， fe1(·),fe2(·),…fe6(·)分别代表编码器的6个子编码器；经过 6个相同的子编码器的操作计算之后，最后输出为编码器的隐藏层特征向量hi： hi＝fe6(fe5(fe4(fe3(fe2(Xhidden2))))) (14) 5.根据权利要求1所述的一种基于记忆驱动的Transformer医学内窥镜图像报告生成方法，其特征是：权　利　要　求　书 2/5 页 3 CN 114944213 A 3

专利 基于记忆驱动的Transformer医学内窥镜图像报告生成方法

专利基于记忆驱动的Transformer医学内窥镜图像报告生成方法