专利文本数据的描述符识别方法、装置及介质

(19)国家知识产权局 (12)发明专利申请 (10)申请公布号 (43)申请公布日 (21)申请号 202210553720.5 (22)申请日 2022.05.19 (71)申请人上海大学地址 200444 上海市宝山区上大路99号 (72)发明人刘悦　葛献远　杨正伟　孙拾雨　施思齐　 (74)专利代理机构北京卓胜佰达知识产权代理有限公司 16 026 专利代理师陈桂兰 (51)Int.Cl. G06F 40/30(2020.01) G06F 40/242(2020.01) G06F 40/211(2020.01) G06N 3/04(2006.01) G06N 3/08(2006.01) (54)发明名称文本数据的描述符识别方法、装置及介质 (57)摘要本发明公开一种文本数据的描述符识别方法、装置及介质。所述方法包括：将文本数据分隔成至少一个句子序列，并将各个句子序列分隔成单独的标记，基于预设的实体标签，对各个标记进行标注，所述预设的实体标签用于定义描述符；随机掩码所述句子序列中的部分单词，并通过学习到的上下文语义关系预测被掩码的单词，以实现对文本数据的增强；基于增强后的文本数据对识别模型进行训练，利用训练好的识别模型通过对文本数据的描述符进行识别，进而筛选出性能驱动的高质量描述符。本发明不仅可以从粗粒度和细粒度两方面从材料科学文献种自动抽取描述符，还可以将领域知识嵌入描述符识别方法中，使得本发明能够根据使用者需要筛选高质量描述符。权利要求书3页说明书16页附图7页 CN 114997176 A 2022.09.02 CN 114997176 A 1.一种文本数据的描述符识别方法，其特征在于，所述方法包括：利用训练好的识别模型通过如下方法对文本数据的描述符进行识别：基于文本数据，确定输入序列w＝(w1,w2,...,wn)和与特征向量对应的标签序列y＝(y1, y2,...,yn)，其中wn是第n个单词的特征向量；通过如下公式(14) ‑(17)计算出一组总概率得分最大的标签序列：其中， score(W,y)是所有输入序列的评价得分， T为迁移矩阵，为yi迁移到yi+1的概率分数，为第i个单词被标注为yi的概率分数， p(y|S)表示语句S被标记为标签序列y 的概率，为真标签，公式(16)表示训练过程中标签序列的似然函数， YW表示所有可能标注的集合， y*表示一组总概率得分最大的标签序列；基于总概率得分最大的标签序列，确定粗粒度描述符；动态添加粗粒度描述符及其对应的句子序列，以构建知识库；基于所述知识库中的粗粒度描述符，通过描述符共同出现在同一个句子中的原则以及每个粗粒度描述符在对应句子序列中的重要性，筛选出性能驱动的高质量描述符。 2.根据权利要求1所述的方法，其特征在于，在利用训练好的识别模型通过如下方法对文本数据的描述符进行识别之前，所述方法还包括：将文本数据分隔成至少一个句子序列，并将各个句子序列分隔成单独的标记，基于预设的实体标签，对各个标记进行标注，所述预设的实体标签用于定义描述符；随机掩码所述句子序列中的部分单词，并通过学习到的上下文语义关系预测被掩码的单词，以实现对文本数据的增强；通过增强后的文本数据对所述识别模型进行训练。 3.根据权利要求2所述的方法，其特征在于，基于所述知识库中的粗粒度描述符，通过描述符共同出现在同一个句子中的原则以及每个粗粒度描述符在对应句子序列中的重要性，筛选出性能驱动的高质量描述符，包括：在所述知识库中列出粗粒度描述符列表:D＝[D1， D2， ...Dn]，并列出与所述描述符对应的语句列表:s＝[s1， s2， ...sn]；选择描述符，然后创建一个临时队列，并将所述描述符放入所述临时队列中，将粗粒度描述符和语句从对应的粗粒度描述符列表和语句列表中取出，将粗粒度描述符与语句共同出现的描述符添加至临时队列中，在临时队列不为空队列的情况下，将临时队列中的头元权　利　要　求　书 1/3 页 2 CN 114997176 A 2素退出所述临时队列并赋值给性能驱动的高质量描述符集合，得到性能驱动的高质量描述符集合；通过如下公式(18)计算所述性能驱动的高质量描述符集合中的描述符在对应句子序列中的重要性：其中， Ii表示第i个词的重要性， Ei为第i个词的嵌入向量， S[CLS]为相应的句子嵌入向量；基于描述符重要度的阈值筛选出性能驱动的描述符。 4.根据权利要求3所述的方法，其特征在于，基于描述符重要度的阈值，通过如下公式 (19)筛选出高质量的描述符；其中， Di表示性能驱动的高质量描述符集合， T是描述符重要度的阈值， true表示在性能驱动的高质量描述符集合中保留的描述符， false表示在性能驱动的高质量描述符集合中删除的描述符。 5.根据权利要求2所述的方法，其特征在于，在将文本数据分隔成至少一个句子序列之前，所述方法还包括对文本信息进行清理获得文本数据；所述对文本信息进行清理获得文本数据包括：通过正则表达式匹配方式去除文本信息中的无效数据，所述无效数据包括乱码、图片；在出现字符乱码的情况下，将导致出现乱码的字符转换为特殊符号标记。 6.一种文本数据的描述符识别装置，其特征在于，所述装置包括处理器，所述处理器被配置为：利用训练好的识别模型通过如下方法对文本数据的描述符进行识别：基于文本数据，确定输入序列w＝(w1,w2,...,wn)和与特征向量对应的标签序列y＝(y1, y2,...,yn)，其中wn是第n个单词的特征向量；通过如下公式(14) ‑(17)计算出一组总概率得分最大的标签序列：其中， score(W,y)是所有输入序列的评价得分， T为迁移矩阵，为yi迁移到yi+1的概权　利　要　求　书 2/3 页 3 CN 114997176 A 3

专利 文本数据的描述符识别方法、装置及介质

专利文本数据的描述符识别方法、装置及介质