(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210553720.5
(22)申请日 2022.05.19
(71)申请人 上海大学
地址 200444 上海市宝山区上 大路99号
(72)发明人 刘悦 葛献远 杨正伟 孙拾雨
施思齐
(74)专利代理 机构 北京卓胜佰达知识产权代理
有限公司 16 026
专利代理师 陈桂兰
(51)Int.Cl.
G06F 40/30(2020.01)
G06F 40/242(2020.01)
G06F 40/211(2020.01)
G06N 3/04(2006.01)
G06N 3/08(2006.01)
(54)发明名称
文本数据的描述符识别方法、 装置及 介质
(57)摘要
本发明公开一种文本数据的描述符识别方
法、 装置及介质。 所述方法包括: 将文本数据分隔
成至少一个句子序列, 并将各个句子序列分隔成
单独的标记, 基于预设的实体标签, 对各个标记
进行标注, 所述预设的实体标签用于定义描述
符; 随机掩码所述句子序列中的部分单词, 并通
过学习到的上下文语义关系预测被掩码的单词,
以实现对文本数据的增强; 基于增强后的文本数
据对识别模 型进行训练, 利用训练好的识别模型
通过对文本数据的描述符进行识别, 进而筛选出
性能驱动的高质量描述符。 本发 明不仅可以从粗
粒度和细粒度两方面从材料科学文献种自动抽
取描述符, 还 可以将领域知识嵌入描述符识别方
法中, 使得本发 明能够根据使用者需要筛选高质
量描述符。
权利要求书3页 说明书16页 附图7页
CN 114997176 A
2022.09.02
CN 114997176 A
1.一种文本数据的描述符识别方法, 其特 征在于, 所述方法包括:
利用训练好的识别模型通过如下 方法对文本数据的描述符进行识别:
基于文本数据, 确定输入序列w=(w1,w2,...,wn)和与特征向量对应的标签序列y=(y1,
y2,...,yn), 其中wn是第n个单词的特 征向量;
通过如下公式(14) ‑(17)计算出一组总概 率得分最大的标签序列:
其中, score(W,y)是所有输入序列的评价得分, T为迁移矩阵,
为yi迁移到yi+1的概
率分数,
为第i个单词被标注为yi的概率分数, p(y|S)表示语句S被标记为标签序列y 的
概率,
为真标签, 公式(16)表示训练过程中标签序列的似然函数, YW表示所有可能标注的
集合, y*表示一组总概 率得分最大的标签序列;
基于总概 率得分最大的标签序列, 确定粗粒度描述符;
动态添加粗粒度描述符及其对应的句子序列, 以构建知识库;
基于所述知识库中的粗粒度描述符, 通过描述符共同出现在同一个句子 中的原则以及
每个粗粒度描述符在对应句子序列中的重要性, 筛 选出性能驱动的高质量描述符。
2.根据权利要求1所述的方法, 其特征在于, 在利用训练好的识别模型通过如下方法对
文本数据的描述符进行识别之前, 所述方法还 包括:
将文本数据分隔成至少一个句子序列, 并将各个句子序列分隔成单独的标记, 基于预
设的实体标签, 对各个标记进行 标注, 所述预设的实体标签用于 定义描述符;
随机掩码所述句子序列中的部分单词, 并通过学习到的上下文语义关系预测被掩码的
单词, 以实现对文本数据的增强;
通过增强后的文本数据对所述识别模型进行训练。
3.根据权利要求2所述的方法, 其特征在于, 基于所述知识库中的粗粒度描述符, 通过
描述符共同出现在同一个句子中的原则以及每个粗粒度描述符在对应句子序列中的重要
性, 筛选出性能驱动的高质量描述符, 包括:
在所述知识库中列出粗粒度描述符列表:D=[D1, D2, ...Dn], 并列出与所述描述符对应
的语句列表:s=[s1, s2, ...sn];
选择描述符, 然后创建一个临时队列, 并将所述描述符放入所述临时队列中, 将粗粒度
描述符和语句从对应的粗粒度描述符列 表和语句列 表中取出, 将粗粒度描述符与语句共同
出现的描述符添加至临时队列中, 在临时队列不为空队列的情况下, 将临时队列中的头元权 利 要 求 书 1/3 页
2
CN 114997176 A
2素退出所述临时队列并赋值给性能驱动的高质量描述符集合, 得到性能驱动的高质量描述
符集合;
通过如下公式(18)计算所述性能驱动的高质量描述符集合中的描述符在对应句子序
列中的重要性:
其中, Ii表示第i个词的重要性, Ei为第i个词的嵌入向量, S[CLS]为相应的句子嵌入向量;
基于描述符重要度的阈值筛 选出性能驱动的描述符。
4.根据权利要求3所述的方法, 其特征在于, 基于描述符重要度的阈值, 通过如下公式
(19)筛选出高质量的描述符;
其中, Di表示性能驱动的高质量描 述符集合, T是描述符重要度的阈值, true表示在性能
驱动的高质量描述符集合中保留的描述符, false表示在性能驱动的高质量描述符集合中
删除的描述符。
5.根据权利要求2所述的方法, 其特征在于, 在将文本数据分隔成至少一个句子序列之
前, 所述方法还 包括对文本信息进行清理获得文本数据;
所述对文本信息进行清理获得文本数据包括:
通过正则表达式匹配方式去除文本信息中的无效数据, 所述无效数据包括乱码、 图片;
在出现字符乱码的情况 下, 将导致出现乱码的字符转换为特殊符号标记。
6.一种文本数据的描述符识别装置, 其特征在于, 所述装置包括处理器, 所述处理器被
配置为:
利用训练好的识别模型通过如下 方法对文本数据的描述符进行识别:
基于文本数据, 确定输入序列w=(w1,w2,...,wn)和与特征向量对应的标签序列y=(y1,
y2,...,yn), 其中wn是第n个单词的特 征向量;
通过如下公式(14) ‑(17)计算出一组总概 率得分最大的标签序列:
其中, score(W,y)是所有输入序列的评价得分, T为迁移矩阵,
为yi迁移到yi+1的概权 利 要 求 书 2/3 页
3
CN 114997176 A
3
专利 文本数据的描述符识别方法、装置及介质
文档预览
中文文档
27 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共27页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 人生无常 于 2024-03-18 14:13:29上传分享