说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210805075.1 (22)申请日 2022.07.10 (71)申请人 大连理工大 学 地址 116024 辽宁省大连市甘井 子区凌工 路2号 (72)发明人 宗林林 张靖琳 秦鑫 张宪超  徐博  (74)专利代理 机构 大连星河彩舟专利代理事务 所(普通合伙) 2126 3 专利代理师 陈玲玉 (51)Int.Cl. G06F 16/33(2019.01) G06F 16/35(2019.01) G06F 40/242(2020.01) G06F 40/279(2020.01)G06F 40/30(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称 基于知识驱动多分类的情绪原因对提取方 法及系统 (57)摘要 本发明公开了基于知识驱动多分类的情绪 原因对提取方法及系统, 本发明将数据集文档分 词后, 计算从句中每个词的情绪分数, 相加得到 从句的情绪 分数。 再通过长短期记忆人工神经网 络学习文档上下文信息, 结合位置嵌入学习和窗 口搜索提取情绪 ‑原因对。 本发明联合语义知识 嵌入, 位置信息学习和窗口搜索提高情绪 ‑原因 对提取的准确率。 缓解了标签不平衡等问题, 在 公开的数据集上有较好的效果。 权利要求书3页 说明书9页 附图2页 CN 115129818 A 2022.09.30 CN 115129818 A 1.基于知识驱动多分类的情绪原因对提取 方法, 其特 征在于, 包括以下步骤: S1计算从句情绪分数: 导入情绪词典, 情绪词典中每个词 汇赋予一个情绪分数; 逐一读 取每个文档, 提取文档中每个从句的分词, 与情绪词典中的词汇进行匹配并赋予对应的情 绪分数, 若词汇不存在于情绪词典中分数记为 零, 之后相加计算从句情绪分数并储 存; S2文档语义嵌入学习: 将 从句中的分词替换为词向量, 每个从句生成词嵌入矩阵; 使用 词汇级的双向长短时记忆网络学习从句间词汇的上下文信息; 再加入注意力机制, 每个从 句生成句向量; 将得到的句向量输入特定语义类型的语句级的双 向长短时记忆网络中, 学习上下文, 生成语义特定的句向量; 所述语义特定的句向量包括情绪特定的句向量、 原因特定的句向 量、 情绪原因特定的句向量和非情绪原因特定的句向量; S3从句情绪原因判断的联合学习分类: 使用四个线性分类器区分步骤S2中不同种类的 语义特定的从句向量, 其中, 在预测时将步骤S1得到的情绪分数也加入到各分类器中进行 判断; S4基于图信息的位置嵌入: S4.1图的构建: 计算数据集中所有文档从句数的最大值m, 构建包含m个节点的不含边 的无连通图, 根据S3判断的情绪原因从句类型, 按照情绪 ‑原因对的位置建立边, 并根据出 现次数赋予边的权 重; S4.2图信息传播和位置生成: 使用GCN算法学习边的邻居信息, 生成含有上下文的边句 嵌入, 加入图的入度和出度信息学习 上下文生成最终的位置信息; 所述图的入度和出度代 表该位置下原因从句和情绪从句出现的概 率; S5基于窗口的情绪 ‑原因对提取: 根据将文档中每句话作为候选从句, 与文档中的从句 拼接形成情绪 ‑原因候选对; 设置搜索窗口大小, 对于一个候选从句只选搜索窗口范围内语 句生成情绪 ‑原因候选对, 拼接位置信息联合S4.2判断的情绪 ‑原因对概 率。 2.根据权利要求1所述的基于知识驱动多分类的情绪原因对提取方法, 其特征在于, S1 中从句i情绪分数 其中, 为从句i中第j个分词的情绪分数, k为从句i中分词的 个数。 3.根据权利要求1所述的基于知识驱动多分类的情绪原因对提取方法, 其特征在于, S3 中首先进行从句情绪和原因分类, 再进行从句情绪原因分类, 最后进行从句非情绪原因分 类; 所述从句 情绪原因分类方发为: 将情绪特定的句向量和 原因特定的句向量分别拼接情 绪分数, 送入线性分类 器得到从句情绪分类的概 率和从句原因分类的概 率; 其中, 为情绪特性的句向量, 为原因特性的句向量, We为情绪可训练参数, Wc为原 因可训练参数, be为情绪偏置向量, bc为原因偏置向量, 和 分别是预测的情绪从句和原 因从句的分布, si为从句的情绪分数, i代 表本文档中的第i个从句;权 利 要 求 书 1/3 页 2 CN 115129818 A 2所述从句情绪原因分类: 将从句特征向量与从句情绪分类概率、 从句原因分类概率和 情绪分数拼接联合判断从句情绪原因分类; 其中, 是预测的情绪原因从句的分布, 为情绪原因特性句向量, Wec为情绪原因可 训练参数, bec为情绪原因偏置向量; 所述从句 非情绪原因分类: 将从句特征向量与从句 非情绪分类的概率、 从句 非原因分 类的概率和从句情绪分数拼接联合判断从句非情绪原因分类; 其中, 是预测的非情绪原因从句的分布, 为非情绪原因特性句向量, Wn为非情绪 原因可训练参数, bn为非情绪原因偏置向量; 和 分别为非情绪分类的概率和非原因 分类的概 率, 其中 从句情绪原因联合判断的l oss如公式所示: 其中j为不同的从句分类 类型, y代 表预测标签, 代表真实标签。 4.根据权利要求1所述的基于知识驱动多分类的情绪原因对提取方法, 其特征在于, S4.1当文档中包含一组情绪 ‑原因对Pij, 其中i代表情绪从句, j代表原因从句; 如果图中i 结 点与j结点之间不包含原因对, 添加新边Eij=<i,j>, 并将这 条边的值置 为1; 若此情绪 ‑原因 对Pij出现n次, 则将该 条边得值置为 n。 5.根据权利要求1所述的基于知识驱动多分类的情绪原因对提取方法, 其特征在于, S4.2中加入多轮GRU获得图中边的邻居信息, 将最后一轮迭代结果作为边位置嵌入的结果 pij, 其中第t+1轮的结果由第t轮结果推到得到: P(t+1)=GRU(co ncat(P(t),P(0) )) 其中, P(0)为 边的初始值; 采用BiLSTM学习边入度和出度以及边位置嵌入, 生成代表位置信息的位置嵌入, 公式 如下: 其中, pij为迭代后的边位置嵌入, 为图中第i个点的入度代表该位置作为原因的概 率, 为图中第j个点的出度代 表该位置作为情绪的概 率。 6.根据权利要求3所述的基于知识驱动多分类的情绪原因对提取方法, 其特征在于, S5 中使用全连接层预测最终情绪 ‑原因对, 公式如下: 其中 W为权重参数, b为偏置, i为文档中第i个结点为候选权 利 要 求 书 2/3 页 3 CN 115129818 A 3

.PDF文档 专利 基于知识驱动多分类的情绪原因对提取方法及系统

文档预览
中文文档 15 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共15页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 基于知识驱动多分类的情绪原因对提取方法及系统 第 1 页 专利 基于知识驱动多分类的情绪原因对提取方法及系统 第 2 页 专利 基于知识驱动多分类的情绪原因对提取方法及系统 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:05上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。