说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210688843.X (22)申请日 2022.06.17 (71)申请人 哈尔滨工业大 学 地址 150001 黑龙江省哈尔滨市南岗区西 大直街92号 (72)发明人 赵铁军 朱聪慧 夏名宏 曹海龙  徐冰 杨沐昀  (74)专利代理 机构 哈尔滨市阳光惠远知识产权 代理有限公司 2321 1 专利代理师 张宏威 (51)Int.Cl. G06F 16/35(2019.01) G06F 16/33(2019.01) G06F 40/30(2020.01) G06K 9/62(2022.01)G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 融合段落信息的篇章级文本连贯性分类方 法 (57)摘要 本发明公开融合段落信息的篇章级文本连 贯性分类方法, 属于自然语言处理技术领域, 解 决现有方法得到的篇章向量普遍缺少上下文信 息并且普遍忽略了篇章的段落结构信息的问题。 本发明的方法包括: 对篇章级文本进行分句, 获 取篇章级文本的句子; 利用XLNet预训练模型, 根 据篇章级文本的句子, 获取句向量; 根据段落的 关系, 构建篇章级文本的篇章结构矩阵; 利用篇 章结构矩阵, 对Tree ‑Transformer构建模型进行 初始化; 利用初 始化后的Tree ‑Transformer构建 模型, 对句向量进行更新; 根据更新后的句向量, 获取篇章级文本的篇章级语义向量表 示; 将篇章 级语义向量表 示输入分类层, 获取篇章级语义连 贯性分类结果。 本发明对信息检索和自然语言处 理中的多任务学习、 文档向量化等方向有重要作 用。 权利要求书2页 说明书7页 附图2页 CN 115114436 A 2022.09.27 CN 115114436 A 1.融合段落信息的篇 章级文本连贯 性分类方法, 其特 征在于, 所述方法包括: 对篇章级文本进行分句, 获取 所述篇章级文本的句子; 利用XLNet预训练模型, 根据所述所述 篇章级文本的句子, 获取句向量; 根据段落的关系, 构建所述 篇章级文本的篇 章结构矩阵; 利用所述 篇章结构矩阵, 对Tre e‑Transformer构建模型进行初始化; 利用所述初始化后的Tre e‑Transformer构建模型, 对所述句向量进行 更新; 根据所述更新后的句向量, 获取 所述篇章级文本的篇 章级语义向量表示; 将所述篇章级语义向量表示输入分类层, 获取篇 章级语义连贯 性分类结果。 2.根据权利要求1所述的融合段落信 息的篇章级文本连贯性分类方法, 其特征在于: 所 述对篇章级文本进行分句, 具体为: 对所述 篇章级文本按照句子粒度进行分句。 3.根据权利要求1所述的融合段落信息的篇 章级文本连贯 性分类方法, 其特 征在于: 所述利用XL Net预训练模型, 获取 所述句子的句向量, 具体包括: 对所述句子进行分词, 获取 所述句子的单词; 对所述单词进行id化处 理, 获取所述单词的id矩阵; 将所述id矩阵, 输入到所述XL Net预训练模型, 获取 所述单词的词向量; 根据所述词向量获取 所述句子的句向量。 4.根据权利要求3所述的融合段落信 息的篇章级文本连贯性分类方法, 其特征在于: 所 述根据所述词向量获取 所述句子的句向量, 具体为: 对所述句子的全部所述词向量进行平均池化, 获取 所述句子的句向量。 5.根据权利要求1所述的融合段落信 息的篇章级文本连贯性分类方法, 其特征在于: 所 述根据段落的关系, 构建所述 篇章级文本的篇 章结构矩阵, 具体包括: 将所述篇章级文本的所有句子按顺序进行编号,; 根据所述所有句子的个数, 初始化所述 篇章结构矩阵; 根据两个句子是否属于同一个段落, 建立所述两个句子之间的关系值; 当所述两个句子属于同一个段落时, 所述关系值设为第一关系值; 当所述两个句子不属于同一个段落时, 所述关系值设为第二关系值; 按根据所述编号, 遍历所述篇章级文本的所有句子, 根据所述关系值构建所述篇章结 构矩阵。 6.根据权利要求5所述的融合段落信息的篇 章级文本连贯 性分类方法, 其特 征在于: 所述根据所述所有句子的个数, 初始化篇章结构矩阵, 具体为: 所述篇章结构矩阵的行 数和列数均为所述 篇章级文本的所有句子的个数。 7.根据权利要求5所述的融合段落信 息的篇章级文本连贯性分类方法, 其特征在于: 所 述按根据所述编号, 遍历所述篇章级文本的所有句 子, 根据所述关系值构建所述篇章结构 矩阵, 具体为: 所述篇章结构矩阵中的元素为编号为所述元素对应的行数的句子和编号为所述元素 对应的列数的句子所对应的关系值。 8.根据权利要求1所述的融合段落信 息的篇章级文本连贯性分类方法, 其特征在于: 所 述利用所述 篇章结构矩阵, 对Tre e‑Transformer构建模型进行初始化, 具体包括: 所述Tree‑Transformer构建模型的自注意力计算中, 增 加成分先验矩阵;权 利 要 求 书 1/2 页 2 CN 115114436 A 2根据所述 篇章结构矩阵, 初始化所述成分先验矩阵; 根据所述初始化后的成分先验矩阵, 对Tre e‑Transformer构建模型进行初始化。 9.根据权利要求8所述的融合段落信 息的篇章级文本连贯性分类方法, 其特征在于: 所 述利用所述初始化后的Tre e‑Transformer构建模型, 对所述句向量进行 更新, 具体包括: 所述Tree ‑Transformer构建模型是多层结构, 根据低一层的两个成分先验矩阵, 更新 下一层的成分先验矩阵; 根据更新后的成分先验矩阵, 对所述句向量进行 更新。 10.一种计算机设备, 包括存储器和处理器, 在所述存储器上存储有能够在处理器上运 行的计算机程序, 其特征在于: 所述处理器执行所述程序时实现权利要求1至9中任一项所 述的方法的步骤。权 利 要 求 书 2/2 页 3 CN 115114436 A 3

.PDF文档 专利 融合段落信息的篇章级文本连贯性分类方法

文档预览
中文文档 12 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 融合段落信息的篇章级文本连贯性分类方法 第 1 页 专利 融合段落信息的篇章级文本连贯性分类方法 第 2 页 专利 融合段落信息的篇章级文本连贯性分类方法 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:14:37上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。