说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210555613.6 (22)申请日 2022.05.20 (71)申请人 中国科学院自动化研究所 地址 100190 北京市海淀区中关村东路95 号 (72)发明人 李秋丹 王林子 任亚俊 彭鑫  曾大军  (74)专利代理 机构 北京华夏泰和知识产权代理 有限公司 1 1662 专利代理师 蔡良伟 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/253(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01)G06N 3/08(2006.01) (54)发明名称 媒体转引类型的识别方法、 装置、 电子设备 及存储介质 (57)摘要 本发明公开了一种媒体转引类型的识别方 法、 装置、 电子设备及存储介质, 属于自然语言处 理领域。 其中, 该方法包括: 将源媒体发布的源信 息和转引媒体发布的转引信息输入预训练语言 模型, 分别得到源信息和转引信息的篇章表示向 量以及句子表 示向量; 对源信息和转引信息的各 句子表示向量进行双向交互式语义信息学习, 得 到双向的交互语义篇章表示向量; 将基于预训练 语言模型得到篇章表示向量和交互语义篇章表 示向量进行融合, 得到增强语义表示向量; 根据 所述增强语义表示向量进行媒体转引类型识别, 得到媒体转引类型。 通过本发明, 实现了多层 级、 细粒度地增强篇章的语义表征能力, 有效提升媒 体转引类型的识别性能。 权利要求书3页 说明书17页 附图2页 CN 114818733 A 2022.07.29 CN 114818733 A 1.一种媒体转引类型的识别方法, 其特 征在于, 所述方法包括: 将源媒体发布的源信 息和转引媒体发布的转引信 息输入预训练语言模型, 得到源信 息 的第一篇章表示向量以及所述源信息的第一句子表示向量集合、 转引信息的第二篇章表示 向量以及转引信息的第二句 子表示向量集合, 其中, 所述第一句 子表示向量集合包括所述 源信息中各个句子的句子表示向量, 所述第二句子表示向量集合包括所述转引信息中各个 句子的句子表示向量; 根据所述第一句子表示向量集合和所述第二句子表示向量集合进行双向交互式语义 信息学习, 得到源信息至转引信息方向的第一交互语义篇章表示向量以及转引信息至源信 息方向的第二交 互语义篇章表示向量; 将所述第一篇章表示向量和所述第 一交互语义篇章表示向量, 所述第 二篇章表示向量 和所述第二交互语义篇章表示向量进 行融合, 得到源信息的第一增强语义表示向量和转引 信息的第二增强语义表示向量; 根据所述第一增强语义表示向量和所述第二增强语义表示向量进行媒体转引类型识 别, 得到媒体转引类型。 2.如权利要求1所述的媒体转引类型的识别方法, 其特征在于, 所述将源媒体发布的源 信息和转引媒体发布的转引信息输入预训练语言模型, 得到源信息的第一篇章表示向量以 及所述源信息的第一句子表示向量集合、 转引信息的第二篇章表示向量以及转引信息的第 二句子表示向量 集合, 包括: 将源媒体发布的源信息和转引媒体发布的转引信息构建媒体转引数据 序列对; 将所述媒体转引数据序列对输入预训练语言模型, 输出得到源信 息第一感知特征表示 和转引信息第二感知特 征表示; 根据所述第 一感知特征表示和第 二感知特征表示中各句子的序列位置隐向量, 得到源 信息的各个句子的句子表示向量和转引信息的各个句子的句子表示向量; 将所述第一感知特征表示和所述第二感知特征表示中篇章首位置的隐向量输出作为 源信息的第一 篇章表示向量和转引信息的第二 篇章表示向量。 3.如权利要求2所述的媒体转引类型的识别方法, 其特征在于, 所述将源媒体发布的源 信息和转引媒体发布的转引信息构建媒体转引数据 序列对, 包括: 根据所述源信息和所述 转引信息构建媒体转引信息对; 对所述媒体转引信息对中源信息和转引信息的文首位置以及句间位置添加间隔标识 符, 得到媒体转引数据 序列对。 4.如权利要求2所述的媒体转引类型的识别方法, 其特征在于, 所述根据 所述第一感知 特征表示和第二感知特征表示中各句子的序列位置隐向量, 得到源信息的各个句子的句子 表示向量和转引信息的各个句子的句子表示向量, 包括: 计算所述第 一感知特征表示中各句子的序列位置隐向量的第 一平均值; 计算所述第 二 感知特征表示中各句子的序列位置隐向量的第二平均值; 将所述第一平均值确定为源信 息的各个句子的句子表示向量, 将所述第 二平均值确定 为转引信息的各个句子的句子表示向量。 5.如权利要求1所述的媒体转引类型的识别方法, 其特征在于, 所述根据 所述第一句子 表示向量集合和所述第二句子表示向量集合进 行双向交互式语义信息学习, 得到源信息至权 利 要 求 书 1/3 页 2 CN 114818733 A 2转引信息方向的第一交互语义篇章表示向量以及转引信息至源信息方向的第二交互语义 篇章表示向量, 包括: 根据所述第一句子表示向量集合与所述第二句子表示向量集合构建源媒体至转引媒 体方向的第一句子语义表征对和转引媒体至源媒体方向的第二句子语义表征对; 将所述第一句子语义表征对输入全连接神经网络, 得到源媒体至转引媒体方向的第 一 句对语义关联得分矩阵; 将所述第二句 子语义表征对输入全连接神经网络, 得到转引媒体 至源媒体方向的第二句对语义关联 得分矩阵; 对所述第一句对语义关联得分矩阵进行最大池化处理, 得到源媒体至转引媒体方向句 子对间的第一最大关联性向量; 对所述第二句对语义关联得分矩阵进行最大池化处理, 得 到转引媒体至源媒体方向句子对间的第二 最大关联性向量; 分别对所述第 一最大关联性向量和所述第 二最大关联性向量进行归一化处理, 得到源 信息和转引信息中各子句对于文本语义的贡献度的第一组权 重和第二组权 重; 采用所述第 一组权重对所述第 一句子表示向量集合进行加权计算, 得到源信 息至转引 信息的第一交互语义篇章表示向量; 采用所述第二组权重对所述第二句子表示向量集合进 行加权计算, 得到转引信息 至源信息的第二交 互语义篇章表示向量。 6.如权利要求1所述的媒体转引类型的识别方法, 其特征在于, 所述根据 所述第一增强 语义表示向量和所述第二增强语义表示向量进行媒体转引类型识别, 得到媒体转引类型, 包括: 将所述第一增强语义表示向量和所述第二增强语义表示向量作为输入数据, 输入以 softmax为非线性激活函数的全连接神经网络, 输出媒体转引类型。 7.如权利要求6所述的媒体转引类型的识别方法, 其特征在于, 输出媒体转引类型包 括: 输出媒体转引类型 标签; 其中, 所述媒体转引类型标签用于表征转引类型, 所述转引类型包括: 词语变体、 句子 改写、 篇章重述。 8.一种媒体转引类型的识别装置, 其特 征在于, 包括: 文本编码模块, 用于将源媒体发布的源信 息和转引媒体发布的转引信 息输入预训练语 言模型, 得到源信息的第一篇章表示向量以及所述源信息的第一句 子表示向量集合、 转引 信息的第二篇章表示向量以及转引信息的第二句子表示向量集合, 其中, 所述第一句 子表 示向量集合包括所述源信息中各个句子的句子表 示向量, 所述第二句子表示向量集合包括 所述转引信息中各个句子的句子表示向量; 语义信息学习模块, 用于根据 所述第一句子表示向量集合和所述第 二句子表示向量集 合进行双向交互式语义信息学习, 得到源信息至转引信息方向的第一交互语义篇章表示向 量以及转引信息 至源信息方向的第二交 互语义篇章表示向量; 语义融合模块, 用于将所述第一篇章表示向量和所述第一交互语义篇章表示向量, 所 述第二篇章表示向量和所述第二交互语义篇章表 示向量进 行融合, 得到源信息的第一增强 语义表示向量和转引信息的第二增强语义表示向量; 转引类型识别模块, 用于根据 所述第一增强语义表示向量和所述第 二增强语义表示向 量进行媒体转引类型识别, 得到媒体转引类型。权 利 要 求 书 2/3 页 3 CN 114818733 A 3

.PDF文档 专利 媒体转引类型的识别方法、装置、电子设备及存储介质

文档预览
中文文档 23 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共23页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 媒体转引类型的识别方法、装置、电子设备及存储介质 第 1 页 专利 媒体转引类型的识别方法、装置、电子设备及存储介质 第 2 页 专利 媒体转引类型的识别方法、装置、电子设备及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:34上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。