(19)中华 人民共和国 国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202111630110.2
(22)申请日 2021.12.28
(71)申请人 高创安邦 (北京) 技 术有限公司
地址 100071 北京市丰台区南四环西路186
号三区4号楼-1至1 1层101内1 1层05室
(72)发明人 肖刚
(74)专利代理 机构 北京三聚阳光知识产权代理
有限公司 1 1250
代理人 林韵英
(51)Int.Cl.
G06F 40/289(2020.01)
G06K 9/62(2022.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
一种矛盾事 件分类方法、 装置及计算机设备
(57)摘要
本发明公开了一种 矛盾事件分类方法、 装置
及计算机设备, 该方法包括,获取需要进行分类
的目标数据; 将目标数据进行特征提取, 得到目
标数据的特征值; 基于目标数据的特征值及预设
的文本分词标注模型, 得到目标数据的分词结果
的分词概率; 将分词概率最大的分词结果作为分
词标注数据; 基于分词标注数据和预设的关键词
表得到目标数据的关键词; 基于关键词得到目标
数据的事件类型。 通过对目标数据进行特征提取
得到对应的特征值, 并对相应的特征值进行训练
得到特征值的概率, 可以更加准确的得到目标数
据的特征值, 将分词标注数据与由大量数据得到
预设的关键词表来判断目标数据的事件类型, 提
高了对目标事 件分类的准确率。
权利要求书2页 说明书9页 附图2页
CN 114298034 A
2022.04.08
CN 114298034 A
1.一种矛盾事 件分类方法, 其特 征在于, 包括:
获取需要 进行分类的目标 数据;
将所述目标 数据进行 特征提取, 得到所述目标 数据的特 征值;
基于所述目标数据的特征值及预设的文本分词标注模型, 得到所述目标数据的分词结
果的分词概 率;
将所述分词概 率最大的分词结果作为分词标注数据;
基于所述分词标注数据和预设的关键词表得到所述目标 数据的关键词;
基于所述关键词得到所述目标 数据的事 件类型。
2.根据权利要求1所述的方法, 其特征在于, 在所述获取需要进行分类的目标数据之
后, 所述将所述目标数据进 行特征提取, 得到所述目标数据的特征值之前, 需要进 行目标数
据的预处 理得到预处 理数据, 基于所述预处 理数据进行 特征提取, 所述预处 理的过程包括:
去掉所述目标数据中的控制字符, 并将去掉控制字符的目标数据转化为半角格式, 标
点符号转化为中文格式, 得到第一预处 理数据;
基于正则表达式去掉所述第一预处 理数据中的冗余文本, 得到预处 理数据。
3.根据权利要求1所述的方法, 其特征在于, 构建所述预设的文本分词标注模型的过程
包括:
获取分词样本数据, 所述分词样本数据中包含原始文本, 以及对所述原始文本进行标
记的词性标注;
基于所述原 始文本进行 特征提取, 得到第一特 征值;
将所述第一特征值作为输入数据、 所述词性标注作为输出数据, 对用于进行分词标注
的神经网络模型进行训练, 得到所述预设的文本分词标注模型。
4.根据权利要求1所述的方法, 其特征在于, 所述基于所述分词标注数据和预设的关键
词表得到所述目标 数据的关键词, 包括:
基于所述目标 数据和关键词表, 得到所述目标 数据的匹配规则;
基于所述匹配规则进行匹配, 得到所述目标 数据的关键词;
基于所述目标 数据的关键词与预设的关系对应表, 得到所述目标 数据的矛盾类别。
5.根据权利要求4所述的方法, 其特征在于, 所述目标数据包括词义数据和词性数据,
所述基于所述目标 数据和关键词表, 得到所述目标 数据的匹配规则, 包括:
判断所述词义数据和词性数据与 所述关键词表中的词义数据和词性数据 是否匹配, 若
匹配则提取对应的关键词;
若不匹配, 则将所述词义数据和词性数据进行拼接得到整词;
基于所述整词进行检索得到对应的关键词。
6.根据权利要求1所述的方法, 其特征在于, 所述方法还包括: 将所述目标数据的关键
词更新到所述预设的关键词表。
7.根据权利要求1所述的方法, 其特 征在于, 构建所述预设的关键词表的过程, 包括:
获取关键词样本数据;
基于关键词提取算法、 词向量和词性得到候选词;
基于所述 候选词、 预设的关键词模板和知识库进行扩展得到第一关键词;
基于所述第一关键词表进行同类词扩展得到所述第二关键词;权 利 要 求 书 1/2 页
2
CN 114298034 A
2基于所述第二关键词表进行词性扩展得到所述关键词表。
8.一种矛盾事 件分类装置, 其特 征在于, 包括:
获取模块, 用于获取需要 进行分类的目标 数据;
特征提取模块, 用于将所述目标 数据进行 特征提取, 得到所述目标 数据的特 征值;
概率模块, 用于基于所述目标数据的特征值及预设的文本分词标注模型, 得到所述目
标数据的分词结果的分词概 率;
分词标注数据模块, 用于将所述分词概 率最大的分词结果作为分词标注数据;
关键词模块, 用于基于所述分词标注数据和预设的关键词表得到所述目标数据的关键
词;
事件类型模块, 用于基于所述关键词得到所述目标 数据的事 件类型。
9.一种计算机设备, 其特征在于, 包括: 至少一个处理器; 以及与所述至少一个处理器
通信连接的存储器; 其中, 所述存储器存储有可被所述至少一个处理器执行的指 令, 所述指
令被所述至少一个处理器执行, 以使所述至少一个处理器执行如权利要求1 ‑7任一所述的
矛盾事件分类方法的步骤。
10.一种计算机可读存储介质, 其上存储有计算机程序, 其特征在于, 所述计算机程序
被处理器执行时实现如权利要求1 ‑7任一所述的矛盾事 件分类方法的步骤。权 利 要 求 书 2/2 页
3
CN 114298034 A
3
专利 一种矛盾事件分类方法、装置及计算机设备
文档预览
中文文档
14 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共14页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-19 00:19:00上传分享