说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210660427.9 (22)申请日 2022.06.13 (71)申请人 华南理工大 学 地址 510641 广东省广州市天河区五山路 381号 (72)发明人 蔡毅 曾雨诗  (74)专利代理 机构 广州嘉权专利商标事务所有 限公司 4 4205 专利代理师 陈嘉乐 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 16/36(2019.01) G06F 40/211(2020.01) G06F 40/216(2020.01)G06F 40/284(2020.01) G06K 9/62(2022.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 一种跨领域细粒度情感分析方法、 装置及存 储介质 (57)摘要 本发明公开了一种跨领域细粒度情感分析 方法、 装置及存储介质, 其中方法包括: 构建目标 领域的细粒度情感分析模型; 将无标注样本输入 BERT编码器预训练语言模型获得每个单词的语 法知识向量表示; 基于图卷积网络, 通过卷积相 邻节点的特征来捕获常识关系结构特征并映射 到与BERT编码器相同的单词层级维度向量空间 中从而获得常识知识向量表示; 拼接语 法知识向 量表示和常识知识向量表示作为单词的最终特 征表示; 优化模型的参数。 本发明通过结合语法 知识和常识关系知识来缩小同一分布空间内的 不同领域的领域差异, 对资源较少的目标领域具 有较强的适应性, 提高目标领域的方面抽取以及 情感分析的预测效果。 本发明可广泛应用于自然 语言处理技术领域。 权利要求书3页 说明书8页 附图1页 CN 115221272 A 2022.10.21 CN 115221272 A 1.一种跨领域细粒度情感分析 方法, 其特 征在于, 包括以下步骤: 构建目标领域的细粒度情 感分析模型, 所述细粒度情 感分析模型包括预训练语法知识 特征向量表示模块、 预训练常识知识关系向量表示模块以及分类器; 所述预训练语法知识 特征向量表 示模块包括BERT编码 器, 所述预训练常识知识关系向量表示模块包括图卷积网 络GCN; 将源领域和目标领域的无标注文本输入到所述BERT编码器, 获得文本 中的每一个单词 的语法知识特 征向量表示; 将源领域或者目标领域的文本输入到所述预训练常识知识关系向量表示模块; 其中各 领域的每个句子的指 定词性的单词输入到Concept Net常识知识库, 并获取每个指 定词性的 单词到领域概念的路径和关系, 从而构建出领域常识图谱; 将领域常识图谱输入到图卷积 网络GCN中通过预测结点与结点之间的关系, 从而获得单词的预训练常识知识特征向量表 示; 以句子为单位, 通过领域常识图谱获得句子中指定词性与领域概念间的路径和关系, 构建的子图谱, 将子图谱输入到图卷积网络GCN, 获得子图谱的向量表示, 并通过特征空间 转换层映射到和BERT编码器相同的同一分布空间, 获得单词的常识知识特征向量表示; 将 语法知识特 征向量表示和单词与单词的常识知识特 征向量表示 拼接作为单词特 征表示; 以句子中的各个单词为单位, 将单词特征表示输入训练分类器, 对分类器进行训练, 获 得最佳的模型参数; 将目标领域无标记数据输入训练后的所述细粒度情感分析模型, 对最后 拼接而成的单 词特征表示向量做分类任务输出预测标签, 完成目标领域中的方面词以及方面词的情感极 性的识别。 2.根据权利要求1所述的一种跨领域细粒度情感分析方法, 其特征在于, 还包括预训练 BERT编码器的步骤: 利用Spacy库中的Pos ‑tag和dependency  relation改变BERT编码器的两个子监督任 务, 从而提升BERT编码器对语法常识的敏感度。 3.根据权利要求2所述的一种跨领域细粒度情感分析方法, 其特征在于, 提取的语法知 识特征向量表示 为: hi=transformer(ei) 其中, ei是对应索引单词的连续性词嵌入向量, hi代表将ei通过多层transfermer映射 到对应的预训练的词嵌入向量, 分别对应的是BERT编码器的两个自监督任务; Wp和bp是权重矩阵; 和 分别是对应索引单词在依赖树中头标记和子标记的表示, 预测索引单词间的依赖关系; [; ]、 [ ‑]和⊙分别代表 拼接、 减法和乘法操作; Wd是关系分类的权 重矩阵。 4.根据权利要求3所述的一种跨领域细粒度情 感分析方法, 其特征在于, 所述BERT编码 器实现的语法知识特 征向量表示的损失函数如下:权 利 要 求 书 1/3 页 2 CN 115221272 A 2其中, DU代表的是无标注样本; I1(i)代表索引单词i在自监督任务中有没有被[MASK], 如果有则为1, 反之为0, 代表的是索引单词 真正的POS‑tag标签; 同理I2(ij)也是只对 在依赖树中具有之间连线的索引单词预测依赖 关系; λ是一个权衡损失函数权重的超参数; T代表的是无标注样本的单词集 合; 代表的是索引单词i和j之间的语法关系标签。 5.根据权利要求1所述的一种跨领域细粒度情感分析方法, 其特征在于, 所述图卷积网 络GCN通过以下 方式训练: 利用源域和目标域中的每个未标记样本的子图谱来训练图卷积网络GCN的图自动编码 器, 通过卷积相邻节点的特 征来捕获常识关系结构特 征, 提取的特 征向量表示 为: 其中N(t)表示单词t的邻域节点; 表示节点g在l层的隐藏特 征; Wl和bl是权重矩阵; 利用子图谱中节点的表示, 进行自监 督关系分类任务并优化图自动 编码器; 为了挖掘每个节点在图中的表示, 采用随机抽取的方式, 给定两个节点以判断节点关 系的分类任务进行 预训练。 6.根据权利要求5所述的一种跨领域细粒度情感分析方法, 其特征在于, 训练过程中, 采用交叉熵损失函数 具体如下: 其中, [oi; oj]表示的是第i个节点与第j个节点的表示进行拼接得到的表示; p(yr|[oi; oj]表示的是 给定两个节点的表示预测关系yr的概率; N和M为随机抽取次数。 7.根据权利要求1所述的一种跨领域细粒度情感分析方法, 其特征在于, 所述单词特征 表示为: vi=[tc; ts] pi=softmax(Wvi+b) 其中, ts代表通过BERT编码器获得的语法知识特征向量表示, tc代表通过图卷积网络 GCN后再通过空间映射映射到与BERT编码 器同一空间维度的具有 领域常识关系的特征向量 表示, [; ]代表向量拼接; 单词特征表示向量同时具有节点级别的常识知识特征表示tc和单 词级语法知识特征表示ts, 从而提升目标领域细粒度情感分析任务; 最后, 通过全连接和 softmax层预测每 个索引单词属于最后所有标签的概 率, W和b都是权 重矩阵。 8.根据权利要求1所述的一种跨领域细粒度情感分析方法, 其特征在于, 所述将单词特 征表示输入训练分类 器, 对分类 器进行训练, 获得最佳的模型参数, 包括: 以句子中的各个单词为单位, 将单词特征表示输入训练分类器, 并采用Adam优化器训 练模型参数, 得到最佳的模型参数, 实现单词级别的领域 适应; 其中, 采用交叉熵损失函数优化模型参数, 具体的损失函数为:权 利 要 求 书 2/3 页 3 CN 115221272 A 3

.PDF文档 专利 一种跨领域细粒度情感分析方法、装置及存储介质

文档预览
中文文档 13 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 一种跨领域细粒度情感分析方法、装置及存储介质 第 1 页 专利 一种跨领域细粒度情感分析方法、装置及存储介质 第 2 页 专利 一种跨领域细粒度情感分析方法、装置及存储介质 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 10:56:27上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。