专利阅读理解方法、装置、存储介质及计算机设备

(19)中华人民共和国国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202111655536.3 (22)申请日 2021.12.3 0 (71)申请人中科讯飞互联（北京）信息科技有限公司地址 100193 北京市海淀区西北旺东路10 号院东区5号楼三层31 1-2 申请人科大讯飞股份有限公司 (72)发明人陈致鹏　崔一鸣　陈志刚　 (74)专利代理机构北京励诚知识产权代理有限公司 11647 代理人周慧云 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/56(2019.01)G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 7/00(2006.01) (54)发明名称阅读理解方法、装置、存储介质及计算机设备 (57)摘要本申请公开一种阅读理解方法、装置、存储介质及计算机设备。该方法包括：获取待处理的文本数据和图像数据，文本数据包括问题和问题对应的选项，图像数据包括场景图片；提取文本数据的文本向量表示，文本向量表示包含问题的文本信息和选项的文本信息；提取图像数据的图片向量表示；根据文本向量表示与图片向量表示，计算包含有文本信息和图像信息的多模态向量表示；根据多模态向量表示，计算出每一选项作为正确答案的概率值，以根据概率值从选项中确定出与问题和场景图片匹配的正确答案，可以实现图片和文本问题输入的多模态阅读理解，且提升了阅读理解的正确性。权利要求书2页说明书14页附图5页 CN 114238587 A 2022.03.25 CN 114238587 A 1.一种阅读理解方法，其特征在于，所述方法包括：获取待处理的文本数据和图像数据，所述文本数据包括问题和所述问题对应的选项，所述图像数据包括场景图片；提取所述文本数据的文本向量表示，所述文本向量表示包含所述问题的文本信息和所述选项的文本信息；提取所述图像数据的图片向量表示；根据所述文本向量表示与所述图片向量表示，计算包含有文本信息和图像信息的多模态向量表示；根据所述多模态向量表示，计算出每一所述选项作为正确答案的概率值，以根据所述概率值从所述选项中确定出与所述问题和所述场景图片匹配的正确答案。 2.如权利要求1所述的阅读理解方法，其特征在于，所述提取所述文本数据的文本向量表示，包括：通过词表将所述文本数据中的每个词转换成每个词在所述词表中对应的序号，并根据所述序号查找所述文本数据的文本向量表示。 3.如权利要求1所述的阅读理解方法，其特征在于，所述提取所述图像数据的图片向量表示，包括：根据目标检测模型对所述场景图片进行目标检测以及特征提取，以得到所述图片向量表示，其中，所述图片向量表示包括所述场景图片中每个视觉目标的图像信息向量表示和整个图片的图像信息向量表示。 4.如权利要求1所述的阅读理解方法，其特征在于，所述根据所述文本向量表示与所述图片向量表示，计算包含文本信息和图像信息的多模态向量表示，包括：基于自注意力模型对所述文本向量表示与所述图片向量进行处理，获得所述问题的文本信息、所述选项的文本信息与所述图像信息之间的全局交互信息；对所述全局交互信息进行归一化处理，得到第一归一化信息；根据所述全局交互信息与所述第一归一化信息，确定包含文本信息和图像信息的多模态向量表示。 5.如权利要求4所述的阅读理解方法，其特征在于，所述将基于自注意力模型对所述文本向量表示与所述图片向量进行处理，获得所述问题的文本信息、所述选项的文本信息与所述图像信息之间的全局交互信息，包括：将根据所述文本向量表示与所述图片向量表示确定的嵌入向量表示输入自注意力模型，根据所述嵌入向量表示与所述嵌入向量表示的转置矩阵之间的乘积，计算匹配矩阵；根据所述匹配矩阵与所述嵌入向量表示的乘积，确定所述问题的文本信息、所述选项的文本信息与所述图像信息之间的全局交互信息。 6.如权利要求4所述的阅读理解方法，其特征在于，所述根据所述全局交互信息与所述第一归一化信息，确定包含文本信息和图像信息的多模态向量表示，包括：将所述全局交互信息与所述第一归一化信息进行相加，以得到第一求和信息；将所述第一求和信息输入全连接层进行处理后，对所述全连接层的输出结果进行归一化处理，得到第二归一化信息；将所述第一求和信息与所述第二归一化信息进行相加，得到所述包含文本信息和图像权　利　要　求　书 1/2 页 2 CN 114238587 A 2信息的多模态向量表示。 7.如权利要求1所述的阅读理解方法，其特征在于，所述方法还包括：获取位置向量表示和类型向量表示，所述位置向量表示用于标注所述文本数据中每个词的位置，所述类型向量表示用于区分文本类型和图像类型；所述根据所述文本向量表示与所述图片向量表示，计算包含有文本信息和图像信息的多模态向量表示，包括：根据所述文本向量表示、所述图片向量表示、所述位置向量表示和所述类型向量表示，计算包含有文本信息和图像信息的多模态向量表示。 8.如权利要求1 ‑7任一项所述的阅读理解方法，其特征在于，所述根据所述多模态向量表示，计算出每一所述选项作为正确答案的概率值，以根据所述概率值从所述选项中确定出与所述问题和所述场景图片匹配的正确答案，包括：将所述多模态向量表示进行拆分处理，得到问题选项表示和图像选项表示；基于交叉注意力模型对所述问题选项表示和所述图像选项表示进行处理，获得关注点向量表示；根据所述关注点向量表示，计算出每一所述选项作为正确答案的概率值，以根据所述概率值从所述选项中确定出与所述问题和所述场景图片匹配的正确答案。 9.一种阅读理解装置，其特征在于，所述装置包括：获取单元，用于获取待处理的文本数据和图像数据，所述文本数据包括问题和所述问题对应的选项，所述图像数据包括场景图片；第一提取单元，用于提取所述文本数据的文本向量表示，所述文本向量表示包含所述问题的文本信息和所述选项的文本信息；第二提取单元，用于提取所述图像数据的图片向量表示；计算单元，用于根据所述文本向量表示与所述图片向量表示，计算包含有文本信息和图像信息的多模态向量表示；确定单元，用于根据所述多模态向量表示，计算出每一所述选项作为正确答案的概率值，以根据所述概率值从所述选项中确定出与所述问题和所述场景图片匹配的正确答案。 10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序，所述计算机程序适于处理器进行加载，以执行如权利要求 1‑8任一项所述的阅读理解方法中的步骤。 11.一种计算机设备，其特征在于，所述计算机设备包括处理器和存储器，所述存储器中存储有计算机程序，所述处理器通过调用所述存储器中存储的所述计算机程序，用于执行权利要求1 ‑8任一项所述的阅读理解方法中的步骤。权　利　要　求　书 2/2 页 3 CN 114238587 A 3

专利 阅读理解方法、装置、存储介质及计算机设备

专利阅读理解方法、装置、存储介质及计算机设备