说明:收录全网最新的团体标准 提供单次或批量下载
(19)中华 人民共和国 国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202111655536.3 (22)申请日 2021.12.3 0 (71)申请人 中科讯飞互联 (北京) 信息科技有限 公司 地址 100193 北京市海淀区西北旺东路10 号院东区5号楼三层31 1-2 申请人 科大讯飞股份有限公司 (72)发明人 陈致鹏 崔一鸣 陈志刚  (74)专利代理 机构 北京励诚知识产权代理有限 公司 11647 代理人 周慧云 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/332(2019.01) G06F 16/56(2019.01)G06V 10/80(2022.01) G06K 9/62(2022.01) G06N 7/00(2006.01) (54)发明名称 阅读理解方法、 装置、 存储介质及计算机设 备 (57)摘要 本申请公开一种阅读理解方法、 装置、 存储 介质及计算机设备。 该方法包括: 获取待处理的 文本数据和图像数据, 文本数据包括问题和问题 对应的选项, 图像数据包括场景图片; 提取文本 数据的文本向量表示, 文本向量表 示包含问题的 文本信息和选项的文本信息; 提取图像数据的 图 片向量表示; 根据文本向量表示与图片向量表 示, 计算包含有文本信息和图像信息的多模态向 量表示; 根据多模态向量表示, 计算出每一选项 作为正确答案的概率值, 以根据概率值从选项中 确定出与问题和场景图片匹配的正确答案, 可以 实现图片和文本问题输入的多模态阅读理解, 且 提升了阅读理解的正确性。 权利要求书2页 说明书14页 附图5页 CN 114238587 A 2022.03.25 CN 114238587 A 1.一种阅读理解方法, 其特 征在于, 所述方法包括: 获取待处理的文本数据和图像数据, 所述文本数据包括问题和所述问题对应的选项, 所述图像数据包括场景图片; 提取所述文本数据的文本向量表示, 所述文本向量表示包含所述问题的文本信 息和所 述选项的文本信息; 提取所述图像数据的图片向量表示; 根据所述文本向量表示与 所述图片向量表示, 计算包含有文本信 息和图像信 息的多模 态向量表示; 根据所述多模态向量表示, 计算出每一所述选项作为正确答案的概率值, 以根据所述 概率值从所述选项中确定出与所述问题和所述场景图片匹配的正确答案 。 2.如权利要求1所述的阅读理解方法, 其特征在于, 所述提取所述文本数据的文本向量 表示, 包括: 通过词表将所述文本数据中的每个词转换成每个词在所述词表中对应的序号, 并根据 所述序号 查找所述文本数据的文本向量表示。 3.如权利要求1所述的阅读理解方法, 其特征在于, 所述提取所述图像数据的图片向量 表示, 包括: 根据目标检测模型对所述场景图片进行目标检测以及特征提取, 以得到所述图片向量 表示, 其中, 所述图片向量表示包括所述场景图片 中每个视觉目标的图像信息 向量表示和 整个图片的图像信息向量表示。 4.如权利要求1所述的阅读理解方法, 其特征在于, 所述根据所述文本向量表示与 所述 图片向量表示, 计算包 含文本信息和图像信息的多模态向量表示, 包括: 基于自注意力模型对所述文本向量表示与 所述图片向量进行处理, 获得所述问题的文 本信息、 所述选项的文本信息与所述图像信息之间的全局交 互信息; 对所述全局交 互信息进行归一 化处理, 得到第一归一 化信息; 根据所述全局交互信 息与所述第一归一化信 息, 确定包含文本信 息和图像信 息的多模 态向量表示。 5.如权利要求4所述的阅读理解方法, 其特征在于, 所述将基于自注意力模型对所述文 本向量表示与所述图片向量进行处理, 获得所述问题的文本信息、 所述选项的文本信息与 所述图像信息之间的全局交 互信息, 包括: 将根据所述文本向量表示与所述图片向量表示确定的嵌入向量表示输入自注意力模 型, 根据所述嵌入向量表示与所述嵌入向量表示的转置矩阵之间的乘积, 计算匹配矩阵; 根据所述匹配矩阵与所述嵌入向量表示的乘积, 确定所述问题的文本信息、 所述选项 的文本信息与所述图像信息之间的全局交 互信息。 6.如权利要求4所述的阅读理解方法, 其特征在于, 所述根据所述全局交互信 息与所述 第一归一 化信息, 确定包 含文本信息和图像信息的多模态向量表示, 包括: 将所述全局交 互信息与所述第一归一 化信息进行相加, 以得到第一 求和信息; 将所述第一求和信 息输入全连接层进行处理后, 对所述全连接层的输出结果进行归一 化处理, 得到第二归一 化信息; 将所述第一求和信 息与所述第 二归一化信 息进行相加, 得到所述包含文本信 息和图像权 利 要 求 书 1/2 页 2 CN 114238587 A 2信息的多模态向量表示。 7.如权利要求1所述的阅读理解方法, 其特 征在于, 所述方法还 包括: 获取位置向量表示和类型向量表示, 所述位置向量表示用于标注所述文本数据中每个 词的位置, 所述类型向量表示用于区分文本类型和图像 类型; 所述根据 所述文本向量表示与所述图片向量表示, 计算包含有文本信 息和图像信 息的 多模态向量表示, 包括: 根据所述文本向量表示、 所述图片向量表示、 所述位置向量表示和所述类型向量表示, 计算包含有文本信息和图像信息的多模态向量表示。 8.如权利要求1 ‑7任一项所述的阅读理解方法, 其特征在于, 所述根据 所述多模态向量 表示, 计算出每一所述选项作为正确 答案的概率值, 以根据所述概率值从所述选项中确定 出与所述问题和所述场景图片匹配的正确答案, 包括: 将所述多模态向量表示进行拆分处 理, 得到问题选项表示和图像选项表示; 基于交叉注意力模型对所述问题选项表示和所述图像选项表示进行处理, 获得关注点 向量表示; 根据所述关注点向量表示, 计算出每一所述选项作为正确答案的概率值, 以根据所述 概率值从所述选项中确定出与所述问题和所述场景图片匹配的正确答案 。 9.一种阅读理解装置, 其特 征在于, 所述装置包括: 获取单元, 用于获取待处理的文本数据和图像数据, 所述文本数据包括问题和所述问 题对应的选项, 所述图像数据包括场景图片; 第一提取单元, 用于提取所述文本数据的文本向量表示, 所述文本向量表示包含所述 问题的文本信息和所述选项的文本信息; 第二提取单元, 用于提取 所述图像数据的图片向量表示; 计算单元, 用于根据所述文本向量表示与所述图片向量表示, 计算包含有文本信息和 图像信息的多模态向量表示; 确定单元, 用于根据所述多模态向量表示, 计算出每一所述选项作为正确答案的概率 值, 以根据所述 概率值从所述选项中确定出与所述问题和所述场景图片匹配的正确答案 。 10.一种计算机可读存储介质, 其特征在于, 所述计算机可读存储介质存储有计算机程 序, 所述计算机程序适于处理器进 行加载, 以执行如权利要求 1‑8任一项所述的阅读理解方 法中的步骤。 11.一种计算机设备, 其特征在于, 所述计算机设备包括处理器和存储器, 所述存储器 中存储有计算机程序, 所述处理器通过调用所述存储器中存储的所述计算机程序, 用于执 行权利要求1 ‑8任一项所述的阅读理解方法中的步骤。权 利 要 求 书 2/2 页 3 CN 114238587 A 3

.PDF文档 专利 阅读理解方法、装置、存储介质及计算机设备

文档预览
中文文档 22 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共22页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 阅读理解方法、装置、存储介质及计算机设备 第 1 页 专利 阅读理解方法、装置、存储介质及计算机设备 第 2 页 专利 阅读理解方法、装置、存储介质及计算机设备 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-19 04:44:20上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。