说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210567309.3 (22)申请日 2022.05.24 (71)申请人 昆明理工大 学 地址 650500 云南省昆明市呈贡区景明南 路727号 (72)发明人 黄于欣 严海宁 汪翠 张亚飞  (74)专利代理 机构 昆明隆合知识产权代理事务 所(普通合伙) 53220 专利代理师 何娇 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于生成对抗网络的越南语新闻事件共指 关系识别方法 (57)摘要 本发明涉及基于生成对抗网络的越南语新 闻事件共指关系识别方法, 属自然语言处理领 域。 本发明的事件共指关系识别任务需要识别新 闻文档中事件描述句之间是否从不同的角度对 同一件真实事情展开论述。 针对事件信息比实体 信息复杂导致事件共指关系识别的难度远远大 于实体共指消解, 以及在越南语新闻文档中存在 不同事件句之间具有相似上下文但不具有共指 关系的情况, 而容易对模 型造成困惑。 因此, 本发 明采用事件 上下文作为事件句的表征, 并通过生 成对抗网络来缓解文本中的噪声数据, 以提高面 向越南语新闻的事件共指关系识别的性能。 在构 建的越南语事件 数据集上进行实验验证, 结果表 明, 所提方法较 基线模型取得了更好的效果。 权利要求书2页 说明书8页 附图2页 CN 114925168 A 2022.08.19 CN 114925168 A 1.基于生成对抗网络的越南语新闻事件共指关系识别方法, 其特征在于: 所述方法的 具体步骤如下: Step1、 为每一 篇越南语新闻文档构建可靠数据R和不可靠数据U; Step2、 使用越南语预训练语言模型PhoBERT构建编码器, 用于对事件对实例中的事件 信息进行编码表征; Step3、 使用生成对抗网络进行对抗训练, 用于过滤不可靠数据中的噪声实例, 以提高 事件共指关系识别的准确性; Step4、 构建全局优化算法, 用于以事件对为单位完成文档内的事件共指关系识别后, 进一步组建单文档的事 件共指链。 2.根据权利要求1所述的基于生成对抗网络的越南语新闻事件共指关系识别方法, 其 特征在于: 所述Step1的具体步骤为: Step1.1、 由已过滤非事件句的越南语新闻文档中具有相同事件类型的事件句两两组 合在一起构成可靠数据R, 将R用于指导 生成对抗网络中的鉴别器; Step1.2、 由越南语新 闻文档中任意两个事件句随机组成事件对后, 构 建含有噪声实例 的不可靠数据U, 将U用于模型训练和 测试。 3.根据权利要求1所述的基于生成对抗网络的越南语新闻事件共指关系识别方法, 其 特征在于: 所述Step2的具体步骤: Step2.1、 对于事件对实例(xi,xj)中的事件句xi, 以目标句子、 句子的词性标记、 围绕触 发词n窗口大小的上 下文、 以及事 件触发词来表示事 件信息; Step2.2、 采用越南语预训练语言模型PhoBERT对事件对实例中的事件句分别编码后获 得序列表征Yi={y1,,...,ym}, 词性标记表征POSi={p1,...,pm}, 触发词表征Ti={t1,t2, t3}, 以及n窗口的上下文表征Cont exti={c1,...,cn}; 之后, 把这些表 征进行拼接获得事件 句xi的最小特 征表示; Step2.3、 将两个新闻事件句的最小特征表示进行拼接获得事件对实例(xi,xj)的编码 表示。 4.根据权利要求1所述的基于生成对抗网络的越南语新闻事件共指关系识别方法, 其 特征在于: 所述Step3的具体步骤为: Step3.1、 设计选择器S用于从不可靠数据U中选取对抗性样本实例, 设计鉴别器D用于 学习判断一个给定的事 件对实例是来自R还是来自U; Step3.2、 对抗训练的目标函数如下式(1)所示, 选择器和鉴别器的训练过程是一个最 大最小的博弈过程, 选择器被训练来通过优化概率分布PU, 从U中选择具有相似语义的事件 对实例来欺骗鉴别器, 期望该事件对实例在鉴别器中获得的置信度分数D(xi,xj),x∈U尽可 能的大; 而鉴别器被训练来最大化置信度分数D(xi,xj),x∈R和1 ‑D(xi,xj),x∈U, 即希望对 来自R中的事件对实例持信任态度, 而对来自U中的事件对实例持不信任态度, 来提高共指 关系的鉴别能力; Step3.3、 当选择器和鉴别器训练达到平衡时, 选择器具备了一定噪声数据过滤的能权 利 要 求 书 1/2 页 2 CN 114925168 A 2力, 倾向于选择U中富含信息、 概率分布更高的信息实例; 而鉴别器也提高了对 噪声数据的 鉴别能力, 能更好 地识别来自噪声数据U中的事 件对实例是否具有真实的共指关系。 5.根据权利要求1所述的基于生成对抗网络的越南语新闻事件共指关系识别方法, 其 特征在于: 所述Step4的具体步骤为: Step4.1、 对于每一篇新闻文档而言, 在以事件对为单位完成共指关系识别之后, 依据 文档内事件之 间的传递性属性组建事件共指链; 以及, 针对识别误差导致的矛盾关系情况, 设置整体的全局优化 算法。权 利 要 求 书 2/2 页 3 CN 114925168 A 3

.PDF文档 专利 基于生成对抗网络的越南语新闻事件共指关系识别方法

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于生成对抗网络的越南语新闻事件共指关系识别方法 第 1 页 专利 基于生成对抗网络的越南语新闻事件共指关系识别方法 第 2 页 专利 基于生成对抗网络的越南语新闻事件共指关系识别方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:00上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。