专利未登录词发现方法、装置、电子设备及存储介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210563265.7 (22)申请日 2022.05.19 (71)申请人一点灵犀信息技术（广州）有限公司地址 510000 广东省广州市海珠区鼎新路 88号3701室 (72)发明人李梦婷　 (74)专利代理机构北京太合九思知识产权代理有限公司 1 1610 专利代理师张爱　刘戈 (51)Int.Cl. G06F 40/279(2020.01) G06F 40/289(2020.01) G06F 40/30(2020.01) G06F 40/44(2020.01) G06K 9/62(2022.01) (54)发明名称未登录词发现方法、装置、电子设备及存储介质 (57)摘要本申请实施例提供一种未登录词发现方法、装置、电子设备及存储介质。在本申请实施例中，在未登录词发现过程中，同时考虑词语的内部凝聚度和外部自由度；在考虑词语内部凝聚度时，不仅考虑词语的互信息，同时考虑词语的长度信息的影响，使得未登录词发现不再受词语长短的限制，对长短词都具有较好的发现能力，有效解决现有方案对较短词语发现能力较差的问题，提高未登录词发现的覆盖度；在考虑词语外部自由度时，对左右邻接信息熵进行融合，考虑左右自由度之间的平衡性，不再是基于单侧自由度，有利于发现语义更加完整的未登录词，有效解决现有方案存在的词语不完整的问题，提高未登录词的准确度。权利要求书3页说明书17页附图4页 CN 115034211 A 2022.09.09 CN 115034211 A 1.一种未登录词发现方法，其特征在于，包括：对目标领域中的文本语料进行词语识别，得到多个候选词，每个候选词是具有特定长度的连续字符串；针对每个候选词，根据所述候选词的长度信息对所述候选词的互信息进行修正，得到所述候选词的内部凝聚度；针对每个候选词，对所述候选词的左邻接信息熵和右邻接信息熵进行融合处理，得到所述候选词的外部自由度；根据所述多个候选词的内部凝聚度和外部自由度，从所述多个候选词中选择未登录词。 2.根据权利要求1所述的方法，其特征在于，针对每个候选词，根据所述候选词的长度信息对所述候选词的互信息进行修正，得到所述候选词的内部凝聚度，包括：针对每个候选词，根据所述候选词的词频和所述候选词包含的各字符的词频，计算所述候选词的互信息；根据所述候选词的长度信息对所述候选词的互信息进行加权处理，得到加权互信息作为所述候选词的内部凝聚度，所述加权互信息随所述候选词的长度信息的增大而减小。 3.根据权利要求2所述的方法，其特征在于，根据所述候选词的长度信息对所述候选词的互信息进行加权处理，得到加权互信息作为所述候选词的内部凝聚度，包括：根据所述候选词的长度信息生成权重因子，所述权重因子随所述候选词的长度信息的增大而减小；根据所述权重因子对所述候选词的互信息进行加权处理，得到加权互信息作为所述候选词的内部凝聚度。 4.根据权利要求3所述的方法，其特征在于，根据所述候选词的长度信息生成权重因子，包括：将所述候选词的长度信息的M次方根的倒数作为所述权重因子， M是≥1的自然数。 5.根据权利要求1 ‑4任一项所述的方法，其特征在于，针对每个候选词，对所述候选词的左邻接信息熵和右邻接信息熵进行融合处理，得到所述候选词的外部自由度，包括：针对每个候选词，从所述文本语料中统计所述候选词对应的左邻接字集合和右邻接字集合；基于所述左邻接字集合和所述右邻接字集合，分别生成所述候选词的左邻接信息熵和右邻接信息熵；根据所述候选词的左邻接信息熵和右邻接信息熵，生成所述候选词的综合信息熵，作为所述候选词的外部自由度。 6.根据权利要求5所述的方法，其特征在于，根据所述候选词的左邻接信息熵和右邻接信息熵，生成所述候选词的综合信息熵，作为所述候选词的外部自由度，包括：以所述右邻接信息熵作为右影响因子，对所述左邻接信息熵进行修正，得到第一融合信息熵；以所述左邻接信息熵作为左影响因子，对所述右邻接信息熵进行修正，得到第二融合信息熵；根据所述第一修正信息熵和第二修正信息熵，生成所述综合信息熵，作为所述候选词权　利　要　求　书 1/3 页 2 CN 115034211 A 2的外部自由度。 7.根据权利要求6所述的方法，其特征在于，根据所述第一修正信息熵和第二修正信息熵，生成所述综合信息熵，作为所述候选词的外部自由度，包括：根据所述左邻接信息熵和所述右邻接信息熵的差值，得到第三融合信息熵；对所述第一修正信息熵、第二修正信息熵和第三融合信息熵进行融合，得到所述综合信息熵，作为所述候选词的外部自由度。 8.根据权利要求1 ‑4任一项所述的方法，其特征在于，对目标领域中的文本语料进行词语识别，得到多个候选词，包括：利用爬虫工具从目标领域对应的多个舆情网站上，爬取所述目标领域中的文本语料；采用N‑gram语言模型对所述文本语料进行词语识别，并对识别到的词语进行凝固度过滤，以得到多个候选词。 9.根据权利要求1 ‑4任一项所述的方法，其特征在于，在选择出未登录词之后，还包括：针对每个未登录词进行特定噪声挖掘，并将包含特定噪声的未登录词过滤掉；和/或利用所述目标领域中的已有通用词，将属于通用词的未登录词过滤掉。 10.根据权利要求9所述的方法，其特征在于，针对每个未登录词进行特定噪声挖掘，并将包含特定噪声的未登录词过滤掉，包括：统计每个未登录词包含的首字和尾字在所述多个候选词中的出现频率，将首字和尾字中任一者出现频率高于指定频率阈值的未登录词过滤掉；和/或根据每个未登录词包含的字符集合，计算每个未登录词的内部信息熵，将内部信息熵小于指定信息熵阈值的未登录词过滤掉。 11.根据权利要求9所述的方法，其特征在于，利用所述目标领域中的已有通用词，将属于通用词的未登录词过滤掉，包括：对选择出的未登录词进行语义聚类，得到至少一个语义簇，每个语义簇包括至少一个未登录词；根据所述目标领域中的已有通用词，对每个语义簇中的未登录词进行过滤，同一语义簇中未被过滤掉的未登录词具有相同的语义簇信息。 12.一种未登录词发现装置，其特征在于，包括：候选词识别模块，用于对目标领域中的文本语料进行词语识别，得到多个候选词，每个候选词是具有特定长度的连续字符串；凝聚度处理模块，用于针对每个候选词，根据所述候选词的长度信息对所述候选词的互信息进行修正，得到所述候选词的内部凝聚度；自由度处理模块，用于针对每个候选词，对所述候选词的左邻接信息熵和右邻接信息熵进行融合处理，得到所述候选词的外部自由度；未登录词选择模块，用于根据所述多个候选词的内部凝聚度和外部自由度，从所述多个候选词中选择未登录词。 13.一种电子设备，其特征在于，包括：存储器和处理器；所述存储器包括计算机程序；所述处理器，与所述存储器耦合，用于执行所述计算机程序，以用于实现权利要求 1‑11任一权　利　要　求　书 2/3 页 3 CN 115034211 A 3

专利 未登录词发现方法、装置、电子设备及存储介质

专利未登录词发现方法、装置、电子设备及存储介质