说明:收录全网最新的团体标准 提供单次或批量下载
(19)国家知识产权局 (12)发明 专利申请 (10)申请公布号 (43)申请公布日 (21)申请 号 202210773096.X (22)申请日 2022.06.30 (71)申请人 清华大学 地址 100084 北京市海淀区双清路3 0号清 华大学清华园北京 100084-82信箱 (72)发明人 孙东红 刘武 时子威 黄永峰  (74)专利代理 机构 北京路浩知识产权代理有限 公司 11002 专利代理师 赵娜 (51)Int.Cl. G06F 40/205(2020.01) G06F 40/284(2020.01) G06F 40/30(2020.01) G06F 16/35(2019.01) G06N 3/08(2006.01) (54)发明名称 情感三元组抽取方法及装置 (57)摘要 本发明提供一种情感三元组抽取方法及装 置, 其中方法包括: 获取待评价文本; 将待评价文 本输入至抽取模 型, 获得抽取模 型输出的情感三 元组; 其中, 抽取模型是基于片段文本样本、 由片 段文本样本构成的文本组合 以及文本组合对应 的搭配标签训练得到的, 搭配标签是根据文本组 合预先确定的; 抽取模型, 用于基于待评价文本 的语义特征和 中文分词特征对待评价文本进行 情感三元 组抽取。 本发明实施例提供的情感三元 组抽取方法及装置, 可以结合待评价文本的语义 特征和中文分词特征, 提高了对中文文本情感三 元组抽取的准确率。 权利要求书2页 说明书14页 附图4页 CN 115017881 A 2022.09.06 CN 115017881 A 1.一种情感三元组抽取 方法, 其特 征在于, 包括: 获取待评价文本; 将所述待评价文本 输入至抽取模型, 获得 所述抽取模型输出的情感三元组; 其中, 所述抽取模型是基于片段文本样本、 由所述片段文本样本构成的文本组合以及 所述文本组合对应的情感标签训练得到的, 所述情感标签是根据所述文本组合预先确定 的; 所述抽取模型, 用于基于所述待评价文本的语义特征和中文分词特征对所述待评价文 本进行情感三元组抽取。 2.根据权利要求1所述的情 感三元组抽取方法, 其特征在于, 所述将所述待评价文本输 入至抽取模型, 获得 所述抽取模型输出的情感三元组, 包括: 对所述待评价文本进行片段分割, 获得 所述待评价文本中的所有的文本片段; 对每个所述文本片段进行语义特征提取和结构信 息提取, 获得每个所述文本片段对应 的文本片段 特征表示; 对每个所述文本片段特征表示进行片段分类, 获得片段分类结果, 所述片段分类结果 包括评价对象特 征、 观点表达特 征或非情感三元组元 素特征; 基于所述评价对象特 征、 所述观点表达特 征和所述待评价文本, 确定上 下文特征; 基于所述评价对象特征、 所述观点表达特征和所述上下文特征, 确定文本片段组合特 征表示; 对所述文本片段组合特征表示进行类型分类和情感极性分类, 获得类型分类结果和情 感极性分类结果; 基于所述类型分类结果和情感极性分类结果, 获得情感三元组。 3.根据权利要求2所述的情 感三元组抽取方法, 其特征在于, 所述对每个所述文本片段 进行语义特征提取和结构信息提取, 获得每个所述文本片段对应的文本片段特征表示, 包 括: 对所述待评价文本进行文本编码, 获得所述待评价文本中每个字对应的字级语义表 示; 对所述待评价文本进行中文分词, 获得分词结果; 基于所述字级语义表示, 获得每 个所述文本片段对应的片段语义表示; 将每个所述文本片段与所述分词结果进行对比, 确定每个所述文本片段包含的分词数 量; 基于每个所述文本片段对应的片段语义表示和每个所述文本片段对应的分词数量, 确 定每个所述文本片段的文本片段 特征表示。 4.根据权利要求3所述的情 感三元组抽取方法, 其特征在于, 所述基于所述字级语义表 示, 获得每 个所述文本片段对应的片段语义表示, 包括: 聚合每个所述文本片段对应的字级语义表示, 获得每个所述文本片段对应的片段语义 表示。 5.根据权利要求3所述的情 感三元组抽取方法, 其特征在于, 所述基于每个所述文本片 段对应的片段语义表 示和每个所述文本片段对应的分词数量, 确定每个所述文本片段的文 本片段特征表示, 包括:权 利 要 求 书 1/2 页 2 CN 115017881 A 2对所述每个所述文本片段对应的片段语义表示和每个所述文本片段对应的分词数量 进行拼接, 获得每 个所述文本片段的文本片段 特征表示。 6.根据权利要求2所述的情 感三元组抽取方法, 其特征在于, 所述基于所述评价对象特 征、 所述观点表达特 征和所述待评价文本, 确定上 下文特征, 包括: 获取评价对象文本和观点表达文本之间的间隔文本片段, 所述评价对象文本为所述评 价对象特 征对应的文本片段, 所述观点表达文本为所述观点表达特 征对应的文本片段; 对所述间隔文本片段进行语义特 征提取, 获得 所述上下文特征。 7.根据权利要求2所述的情 感三元组抽取方法, 其特征在于, 所述抽取模型在训练过程 中的优化目标为: 最小化损失函数的值; 其中, 所述损失函数为片段分类的交叉熵损失、 类型分类的交叉熵损失、 情 感极性分类 的交叉熵损失以及所述抽取模型的L2正则化损失之和。 8.一种情感三元组抽取装置, 其特 征在于, 包括: 获取单元, 用于获取待评价文本; 抽取单元, 用于将所述待评价文本输入至抽取模型, 获得所述抽取模型输出的情感三 元组; 其中, 所述抽取模型是基于片段文本样本、 由所述片段文本样本构成的文本组合以及 所述文本组合对应的情感标签训练得到的, 所述情感标签是根据所述文本组合预先确定 的; 所述抽取模型, 用于基于所述待评价文本的语义特征和中文分词特征对所述待评价文 本进行情感三元组抽取。 9.一种电子设备, 包括存储器、 处理器及存储在所述存储器上并可在所述处理器上运 行的计算机程序, 其特征在于, 所述处理器执行所述程序时实现如权利要求1至7任一项所 述情感三元组抽取 方法。 10.一种非暂态计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算 机程序被处 理器执行时实现如权利要求1至7任一项所述情感三元组抽取 方法。权 利 要 求 书 2/2 页 3 CN 115017881 A 3

.PDF文档 专利 情感三元组抽取方法及装置

文档预览
中文文档 21 页 50 下载 1000 浏览 0 评论 309 收藏 3.0分
温馨提示:本文档共21页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
专利 情感三元组抽取方法及装置 第 1 页 专利 情感三元组抽取方法及装置 第 2 页 专利 情感三元组抽取方法及装置 第 3 页
下载文档到电脑,方便使用
本文档由 人生无常 于 2024-03-18 14:12:52上传分享
友情链接
站内资源均来自网友分享或网络收集整理,若无意中侵犯到您的权利,敬请联系我们微信(点击查看客服),我们将及时删除相关资源。